We may earn an affiliate commission when you visit our partners.
Course image
Antonio Espinosa, Tomás Margalef, and Andrés Cencerrado

¿Estás interesado en tener un conocimiento más detallado sobre las herramientas y aplicaciones Big Data?

Read more

¿Estás interesado en tener un conocimiento más detallado sobre las herramientas y aplicaciones Big Data?

En este curso aprenderás los principios para comprender la terminología, conceptos básicos y herramientas más importantes para resolver problemas de análisis de datos enfocándonos en los problemas y las aplicaciones. El objetivo es proporcionar una visión de sistema para entender los retos más importantes que nos encontramos cuando trabajamos en entornos con grandes volúmenes de datos.

En el curso se plantea una introducción a diversas herramientas utilizadas de forma común en la comunidad como Hadoop, Spark o Hive y tendrás que resolver diferentes retos de análisis de datos mediante su uso.

Al terminar el curso habrás adquirido conocimientos sobre el ecosistema de herramientas Big Data incluyendo ejemplos de uso con problemas industriales y científicos. Tendrás una serie de recursos sobre cómo un análisis a realizar se traduce en una serie de operaciones de recolección de datos, monitorización, almacenamiento, análisis y creación de informes sobre los resultados obtenidos. También adquirirás un criterio para elegir cuál es la herramienta más adecuada para resolver un cierto problema de análisis de datos a partir de los requerimientos de uso de las herramientas.

El curso está orientado tanto a estudiantes universitarios de primeros cursos de estudios universitarios relacionados con la informática, la ingeniería o las matemáticas, como a otros estudiantes con conocimientos de programación, interesados en aprender cómo utilizar de análisis de datos con herramientas de código abierto. Para realizar los ejercicios es necesario utilizar una máquina virtual que deberá ser instalada en tu ordenador.

Enroll now

What's inside

Syllabus

INTRODUCCIÓN
LA MÁQUINA VIRTUAL
A lo largo de estos cursos vamos a trabajar con un conjunto de herramientas contenidas en la máquina virtual Cloudera. En este apartado te explicamos cómo descargar e instalar dicha máquina virtual en tu ordenador.

La MV-Cloudera requiere disponer de un equipo con las siguientes características: (1) máquina de 64 bits, (2) mínimo 6G de memoria (recomendable 8G), y (3) 20G disponibles en disco.

Ten en cuenta que bajar e instalar la máquina virtual te llevará tiempo dado el tamaño y complejidad de la misma
Read more
MÓDULO 1 - Introducción al ecosistema Apache Hadoop
En este módulo se van a introducir los conceptos básicos sobre el uso de Apache Hadoop y su utilización para plantear análisis de grandes conjuntos de datos. Se van a presentar las herramientas principales y la arquitectura del sistema.

Visualiza los vídeos, contesta el cuestionario tantas veces como quieras, realiza el ejercicio práctico sobre Hadoop y HDFS, y accede a los foros para discutir los temas que te parezcan más interesantes.
MÓDULO 2 - Tecnologías SQL y NoSQL. Consistencia, fiabilidad y escalabilidad
En este módulo se introducen conceptos básicos sobre la naturaleza de los datos a tratar y de qué forma los sistemas NoSQL se diferencian de las bases de datos relacionales. Se presenta el teorema CAP y se muestra su importancia en el contexto de los sistemas distribuidos. Finalmente, se muestran una serie de sistemas junto con su uso en la industria actual.

Visualiza los vídeos, contesta el cuestionario tantas veces como quieras, y accede a los foros para discutir los temas que te parezcan más interesantes.
MÓDULO 3 - Adquisición de datos
En este módulo se presentan los desafíos que hay que resolver a la hora de incorporar datos a los sistemas NoSQL y una breve introducción a las herramientas asociadas al ecosistema Hadoop más importantes.

Visualiza los vídeos, contesta el cuestionario tantas veces como quieras, realiza el ejercicio práctico sobre Apache Scoop, y accede a los foros para discutir los temas que te parezcan más interesantes.
MÓDULO 4 - Herramientas para el análisis de datos industrial
En este módulo se presenta el análisis industrial de grandes volúmenes de datos y se introducen una serie de herramientas y sistemas de segunda generación dedicados a resolver necesidades específicas de la industria.

Visualiza los vídeos, contesta el cuestionario tantas veces como quieras, realiza los ejercicios prácticos sobre Apache Hive y Sparck, y accede a los foros para discutir los temas que te parezcan más interesantes.

Good to know

Know what's good
, what to watch for
, and possible dealbreakers
Enseña los conceptos básicos de Hadoop, que es estándar en la industria del análisis de datos
Analiza los desafíos de la adquisición de datos, que son relevantes para los profesionales de análisis de datos
Incluye ejercicios prácticos, que permiten a los estudiantes aplicar los conceptos aprendidos
Se enfoca en el análisis industrial de datos, lo que es una necesidad creciente en las empresas
Explora tecnologías SQL y NoSQL, que son esenciales para los profesionales de análisis de datos

Save this course

Save Big Data: adquisición y almacenamiento de datos to your list so you can find it easily later:
Save

Reviews summary

Herramientas de adquisición y almacenamiento de big data

Este curso de introducción al ecosistema de herramientas Big Data proporciona una visión general de las herramientas y tecnologías que se utilizan para adquirir y almacenar grandes volúmenes de datos. A través de vídeos, cuestionarios y ejercicios prácticos, los estudiantes aprenden sobre Apache Hadoop, bases de datos NoSQL, tecnologías de adquisición de datos y herramientas de análisis de datos industriales.
Los estudiantes aprecian el contenido práctico, las explicaciones claras y el apoyo receptivo a través de los foros.
"Excelente curso en introducción a Big Data."
"Excelente tutores excelentes practicas"
"Excelente curso y excelentes tutores."
"Excelente material y muy buenas las explicaciones."
Apache Scoop y Sqoop son herramientas cruciales para adquirir datos de diversas fuentes.
"En este módulo se presentan los desafíos que hay que resolver a la hora de incorporar datos a los sistemas NoSQL..."
"...una breve introducción a las herramientas asociadas al ecosistema Hadoop más importantes."
El curso cubre una variedad de tecnologías de almacenamiento de datos, incluidas SQL, NoSQL y sistemas distribuidos.
"En este módulo se introducen conceptos básicos sobre la naturaleza de los datos a tratar y de qué forma los sistemas NoSQL se diferencian de las bases de datos relacionales."
"Se presenta el teorema CAP y se muestra su importancia en el contexto de los sistemas distribuidos."
"Finalmente, se muestran una serie de sistemas junto con su uso en la industria actual."
Apache Hive, Spark e Impala son herramientas de análisis de datos que se utilizan para extraer información de conjuntos de datos masivos.
"En este módulo se presenta el análisis industrial de grandes volúmenes de datos y se introducen una serie de herramientas y sistemas de segunda generación dedicados a resolver necesidades específicas de la industria."
Hadoop, HDFS y Hive son herramientas esenciales en el ecosistema Hadoop para adquirir y almacenar datos.
"En este módulo se van a introducir los conceptos básicos sobre el uso de Apache Hadoop y su utilización para plantear análisis de grandes conjuntos de datos."
"Se van a presentar las herramientas principales y la arquitectura del sistema."
Algunos estudiantes encuentran los vídeos largos y aburridos, y los ejercicios prácticos pueden ser desafiantes para los principiantes.
"Creo que muchos conceptos quedan al aire..."
"Aunque es un buen curso, requiere ciertos conceptos previos antes de poder realizarlo a cabalidad..."
"Los videos antes de los talleres no explicaban y muchas veces tocaba buscar todo en internet - externo, para poder hacer el taller."

Activities

Be better prepared before your course. Deepen your understanding during and after it. Supplement your coursework and achieve mastery of the topics covered in Big Data: adquisición y almacenamiento de datos with these activities:
Review Apache Spark and Hive
Strengthen knowledge of Apache Spark and Hive before beginning the course.
Browse courses on Apache Spark
Show steps
  • Review documentation and tutorials
  • Practice writing Spark and Hive queries
Tutoriales de Apache Hadoop
Seguir tutoriales sobre Apache Hadoop permite a los estudiantes profundizar su comprensión del núcleo del ecosistema de Big Data.
Browse courses on Apache Hadoop
Show steps
  • Encontrar tutoriales acreditados
  • Seguir las instrucciones paso a paso
  • Experimentar con los ejemplos proporcionados
Apache Hadoop Ecosystem
Solidify foundational knowledge of Hadoop by following existing tutorials and examples.
Browse courses on Apache Hadoop
Show steps
  • Identify suitable tutorials for beginners
  • Follow tutorials and complete exercises
  • Document your learnings and challenges
12 other activities
Expand to see all activities and additional details
Show all 15 activities
Collaboration and Idea-Sharing
Connect with peers, share insights, and learn from diverse perspectives.
Show steps
  • Join online forums or study groups
  • Participate in discussions and ask clarifying questions
  • Share resources and tips
Crear diagramas de flujos
La creación de diagramas de flujo ayuda a visualizar y comprender el flujo de datos en las aplicaciones de Big Data.
Browse courses on Spark
Show steps
  • Identificar los flujos de datos clave
  • Seleccionar símbolos y conectores adecuados
  • Dibujar el diagrama de flujo
Grupos de estudio de Spark
Participar en grupos de estudio de Spark fomenta la colaboración, el intercambio de conocimientos y la comprensión más profunda de los conceptos.
Browse courses on Apache Spark
Show steps
  • Formar o unirse a un grupo de estudio
  • Establecer objetivos y agenda
  • Revisar materiales, compartir conocimientos
Sigue tutoriales interactivos de Cloudera para aprender las herramientas
Revisa los tutoriales de Cloudera para familiarizarte con las herramientas de Apache Hadoop y mejorar tus habilidades prácticas.
Browse courses on Apache Hadoop
Show steps
  • Accede a la plataforma de Cloudera Learning Lab
  • Selecciona tutoriales relevantes para tu nivel de habilidad
  • Sigue los pasos y completa los ejercicios
Ejercicios de consultas Hive
La práctica de consultas Hive mejora la capacidad de los estudiantes para extraer información de grandes conjuntos de datos mediante SQL.
Browse courses on Apache Hive
Show steps
  • Crear un entorno de práctica
  • Resolver consultas de muestra
  • Desarrollar consultas personalizadas
Resuelve ejercicios prácticos usando Hadoop y Spark
Pon en práctica tus habilidades resolviendo ejercicios prácticos de Hadoop y Spark para reforzar tu comprensión y desarrollar fluidez.
Browse courses on Apache Hadoop
Show steps
  • Familiarízate con los conceptos básicos de Hadoop y Spark
  • Accede a plataformas como Coursera o edX para obtener ejercicios
  • Resuelve ejercicios y depura cualquier error
  • Analiza los resultados y mejora tu enfoque
SQL and NoSQL Data Formats
Enhance understanding of SQL and NoSQL data formats and their applications.
Browse courses on SQL
Show steps
  • Review SQL and NoSQL concepts
  • Design and execute SQL queries to retrieve and manipulate data
  • Create and modify NoSQL databases to store and manage data
  • Experiment with different data formats and choose the most appropriate for specific scenarios
  • Document your experiments and observations
Data Visualization with Cloudera Impala
Develop hands-on experience in data visualization using the Cloudera Impala tool.
Browse courses on Data Visualization
Show steps
  • Explore Cloudera Impala documentation and tutorials
  • Connect to a data source and load data
  • Create data visualizations using Impala
  • Present and document your visualizations
Become a Peer Mentor
Reinforce your knowledge by sharing it with others.
Show steps
  • Identify opportunities to support other students
  • Provide guidance and answer questions
  • Reflect on your own understanding
Proyecto: Análisis de datos de uso del sitio web
La creación de un proyecto de análisis de datos permite a los estudiantes aplicar lo aprendido para resolver problemas del mundo real.
Show steps
  • Definir objetivos y métricas
  • Recopilar y procesar datos
  • Analizar datos y extraer información
  • Visualizar y comunicar resultados
Big Data Acquisition and Analysis Project
Develop practical skills in acquiring, cleaning, and analyzing big data using Apache Scoop.
Browse courses on Data Analysis
Show steps
  • Choose a real-world dataset
  • Design a data acquisition pipeline using Apache Scoop
  • Clean and prepare the acquired data
  • Perform exploratory data analysis to identify patterns and trends
  • Document your project and create a presentation
Community Data Project
Apply acquired knowledge and contribute to a meaningful community project.
Show steps
  • Identify a community organization or project
  • Develop a plan to use big data tools to address a community need
  • Implement the plan and collect data
  • Analyze the data and present findings to the community

Career center

Learners who complete Big Data: adquisición y almacenamiento de datos will develop knowledge and skills that may be useful to these careers:
Data Analyst
Data Analysts study business problems that can be solved through the analysis of data. They are responsible for collecting, cleaning, and analyzing data, and then presenting their findings to stakeholders in a clear and concise manner. This course may be useful for Data Analysts as it provides an introduction to the tools and techniques used for big data analysis, including Apache Hadoop, Apache Hive, and Apache Spark. The course also covers the challenges of data acquisition and the use of NoSQL databases.
Data Engineer
Data Engineers design, build, and maintain data pipelines that collect, store, and process data. They also work with data scientists and other stakeholders to ensure that data is used effectively and efficiently. This course may be useful for Data Engineers as it provides an introduction to the tools and techniques used for big data analysis, including Apache Hadoop, Apache Hive, and Apache Spark. The course also covers the challenges of data acquisition and the use of NoSQL databases.
Data Scientist
Data Scientists use data to solve business problems and make predictions. They work with data engineers and other stakeholders to collect, clean, and analyze data, and then develop models that can be used to make predictions. This course may be useful for Data Scientists as it provides an introduction to the tools and techniques used for big data analysis, including Apache Hadoop, Apache Hive, and Apache Spark. The course also covers the challenges of data acquisition and the use of NoSQL databases.
Database Administrator
Database Administrators are responsible for the installation, configuration, and maintenance of database systems. They also work with other stakeholders to ensure that data is stored and accessed securely and efficiently. This course may be useful for Database Administrators as it provides an introduction to the tools and techniques used for big data analysis, including Apache Hadoop, Apache Hive, and Apache Spark. The course also covers the challenges of data acquisition and the use of NoSQL databases.
Data Architect
Data Architects design and implement data architectures. They work with other stakeholders to identify and solve business problems, and then develop and implement data solutions. This course may be useful for Data Architects as it provides an introduction to the tools and techniques used for big data analysis, including Apache Hadoop, Apache Hive, and Apache Spark. The course also covers the challenges of data acquisition and the use of NoSQL databases.
Software Engineer
Software Engineers design, develop, and maintain software applications. They work with other stakeholders to identify and solve business problems, and then develop and implement software solutions. This course may be useful for Software Engineers as it provides an introduction to the tools and techniques used for big data analysis, including Apache Hadoop, Apache Hive, and Apache Spark. The course also covers the challenges of data acquisition and the use of NoSQL databases.
Statistician
Statisticians collect, analyze, and interpret data. They work with other stakeholders to identify and solve problems, and then develop and implement statistical solutions. This course may be useful for Statisticians as it provides an introduction to the tools and techniques used for big data analysis, including Apache Hadoop, Apache Hive, and Apache Spark. The course also covers the challenges of data acquisition and the use of NoSQL databases.
Business Analyst
Business Analysts study business problems and design and implement solutions that use information technology. They work with other stakeholders to identify and solve business problems, and then develop and implement software solutions. This course may be useful for Business Analysts as it provides an introduction to the tools and techniques used for big data analysis, including Apache Hadoop, Apache Hive, and Apache Spark. The course also covers the challenges of data acquisition and the use of NoSQL databases.
Machine Learning Engineer
Machine Learning Engineers design, develop, and maintain machine learning models. They work with other stakeholders to identify and solve business problems, and then develop and implement machine learning solutions. This course may be useful for Machine Learning Engineers as it provides an introduction to the tools and techniques used for big data analysis, including Apache Hadoop, Apache Hive, and Apache Spark. The course also covers the challenges of data acquisition and the use of NoSQL databases.
Big Data Architect
Big Data Architects design and implement big data architectures. They work with other stakeholders to identify and solve business problems, and then develop and implement big data solutions. This course may be useful for Big Data Architects as it provides an introduction to the tools and techniques used for big data analysis, including Apache Hadoop, Apache Hive, and Apache Spark. The course also covers the challenges of data acquisition and the use of NoSQL databases.
Cloud Architect
Cloud Architects design and implement cloud architectures. They work with other stakeholders to identify and solve business problems, and then develop and implement cloud solutions. This course may be useful for Cloud Architects as it provides an introduction to the tools and techniques used for big data analysis, including Apache Hadoop, Apache Hive, and Apache Spark. The course also covers the challenges of data acquisition and the use of NoSQL databases.
DevOps Engineer
DevOps Engineers work with other stakeholders to design and implement software solutions. They are responsible for the development, deployment, and maintenance of software applications. This course may be useful for DevOps Engineers as it provides an introduction to the tools and techniques used for big data analysis, including Apache Hadoop, Apache Hive, and Apache Spark. The course also covers the challenges of data acquisition and the use of NoSQL databases.
Systems Analyst
Systems Analysts study business problems and design and implement solutions that use information technology. They work with other stakeholders to identify and solve business problems, and then develop and implement software solutions. This course may be useful for Systems Analysts as it provides an introduction to the tools and techniques used for big data analysis, including Apache Hadoop, Apache Hive, and Apache Spark. The course also covers the challenges of data acquisition and the use of NoSQL databases.
Data Governance Analyst
Data Governance Analysts work with other stakeholders to design and implement data governance solutions. They are responsible for the management and protection of data assets. This course may be useful for Data Governance Analysts as it provides an introduction to the tools and techniques used for big data analysis, including Apache Hadoop, Apache Hive, and Apache Spark. The course also covers the challenges of data acquisition and the use of NoSQL databases.
Data Integration Engineer
Data Integration Engineers design and implement data integration solutions. They work with other stakeholders to identify and solve business problems, and then develop and implement data integration solutions. This course may be useful for Data Integration Engineers as it provides an introduction to the tools and techniques used for big data analysis, including Apache Hadoop, Apache Hive, and Apache Spark. The course also covers the challenges of data acquisition and the use of NoSQL databases.

Reading list

We've selected 12 books that we think will supplement your learning. Use these to develop background knowledge, enrich your coursework, and gain a deeper understanding of the topics covered in Big Data: adquisición y almacenamiento de datos.
Provides a comprehensive overview of NoSQL databases, covering topics such as architecture, data models, and query languages.
Provides a broad overview of big data, covering topics such as the history, challenges, and opportunities of big data.
Provides a practical guide to data integration, covering topics such as data quality, data cleansing, and data transformation.
Provides a broad overview of predictive analytics, covering topics such as machine learning, data mining, and statistical modeling.
Provides a practical guide to data science for business, covering topics such as data collection, analysis, and visualization.
Provides a comprehensive guide to SQL, a database programming language used for data retrieval and manipulation.
Provides a practical guide to Hadoop operations, covering topics such as installation, configuration, and administration.
Provides a practical guide to Spark, covering topics such as programming, streaming, and machine learning.

Share

Help others find this course page by sharing it with your friends and followers:

Similar courses

Here are nine courses similar to Big Data: adquisición y almacenamiento de datos.
Introducción a data analytics para economistas
Most relevant
Big Data: procesamiento y análisis
Most relevant
Estadística Aplicada a los Negocios
Most relevant
Introducción a R
Most relevant
Análisis de datos: Diseño y Visualización de Tableros
Most relevant
Excel avanzado: importación y análisis de datos
Most relevant
Minería de Datos: Análisis de la Canasta de Compra
Most relevant
Evaluación e impacto de la sostenibilidad en el entorno...
Most relevant
Ciencia de Datos Aplicada al Marketing
Most relevant
Our mission

OpenCourser helps millions of learners each year. People visit us to learn workspace skills, ace their exams, and nurture their curiosity.

Our extensive catalog contains over 50,000 courses and twice as many books. Browse by search, by topic, or even by career interests. We'll match you to the right resources quickly.

Find this site helpful? Tell a friend about us.

Affiliate disclosure

We're supported by our community of learners. When you purchase or subscribe to courses and programs or purchase books, we may earn a commission from our partners.

Your purchases help us maintain our catalog and keep our servers humming without ads.

Thank you for supporting OpenCourser.

© 2016 - 2024 OpenCourser