We may earn an affiliate commission when you visit our partners.
Course image
Francesc Torradeflot, Nadia Tonello, Pau Tallada, and Jorge Carretero

En este último curso de la Especialización Big Data el estudiante tendrá la oportunidad de aplicar algunas de las herramientas y métodos aprendidos en los cursos anteriores en un caso práctico.

Read more

En este último curso de la Especialización Big Data el estudiante tendrá la oportunidad de aplicar algunas de las herramientas y métodos aprendidos en los cursos anteriores en un caso práctico.

El objetivo de este Capstone Project es mostrar un ejemplo del trabajo que se realiza diariamente en el departamento de Cosmología del Port d’Informació Científica, en Barcelona. Se trata de crear un clasificador para imágenes de galaxias, a partir de datos del proyecto GalaxyZoo e imágenes y datos del telescopio Sloan Digital Sky Survey. Los trabajos y ejercicios guiados llevarán al estudiante a la exploración y analisis de estos datos, hasta realizar una herramienta automática de Machine Learning.

El proceso seguido por los estudiantes en este curso se podría aplicar en cualquier otra disciplina, por ejemplo en las ciencias sociales, en un estudio de mercado o en cualquier ámbito que comporte toma de decisiones a partir de un gran volumen de datos.

Enroll now

What's inside

Syllabus

INTRODUCCIÓN
LA MÁQUINA VIRTUAL
ATENCIÓN: Si ya te instalaste la máquina virtual en el curso anterior de la Especialización no es necesario que vuelvas a hacerlo. En caso contrario, en este apartado te explicamos cómo descargar e instalar dicha máquina virtual en tu ordenador.

La MV-Cloudera requiere disponer de un equipo con las siguientes características: (1) máquina de 64 bits, (2) mínimo 6G de memoria (recomendable 8G), y (3) 20G disponibles en disco.

Ten en cuenta que bajar e instalar la máquina virtual te llevará tiempo dado el tamaño y complejidad de la misma
Read more
MÓDULO 1 - Exploración de datos
En esta semana vamos a conocer el proyecto y a hacer una primera exploración de algunos de los datos con los que iremos trabajando. Nos familiarizamos con el contenido de estos ficheros y haremos el trabajo preliminar para poderlo luego aplicar a grandes volumenes de datos.
MÓDULO 2 - MODELO DE DATOS
En esta semana aprenderemos a cargar los datos en Hive, construir su modelo de datos y entender la tarea de clasificar una galaxia según su forma.
MÓDULO 3 - CLASIFICACIÓN
Esta semana vamos a normalizar un modelo de datos, estudiaremos con profundidad los votos que nos han proporcionado los usuarios y generaremos la información necesaria para construir un clasificador automàtico.
MÓDULO 4 - MACHINE LEARNING
Esta semana introduciremos el dataset de imágenes galácticas y prepararemos dos algoritmos de Inteligencia Artificial para la clasificación automática de galaxias a partir de una imagen.
MÓDULO 5 - TRABAJO FINAL
Es el momento de preparar el informe final con el trabajo realizado hasta ahora. Necesitaréis tener a mano los trabajos realizados las semanas anteriores.

Good to know

Know what's good
, what to watch for
, and possible dealbreakers
El curso ofrece una aplicación práctica de herramientas y métodos aprendidos en cursos anteriores
Proporciona un ejemplo del trabajo diario en el departamento de Cosmología del Port d'Informació Científica
Desarrolla habilidades de exploración de datos, modelo de datos, clasificación y aprendizaje automático
Utiliza datos del proyecto GalaxyZoo y del telescopio Sloan Digital Sky Survey
El proceso seguido es aplicable en diversas disciplinas, como las ciencias sociales y los estudios de mercado

Save this course

Save Big Data: capstone project to your list so you can find it easily later:
Save

Reviews summary

Comprehensive big data capstone

This capstone project provides a hands-on approach to working with Big Data, utilizing real-world data and industry-standard tools. Throughout the course, learners will explore data, build models, and solve classification problems using machine learning algorithms.
Utilizes real-world data from GalaxyZoo
"Se trata de crear un clasificador para imágenes de galaxias, a partir de datos del proyecto GalaxyZoo e imágenes y datos del telescopio Sloan Digital Sky Survey."
In-depth coverage of machine learning
"Esta semana introduciremos el dataset de imágenes galácticas y prepararemos dos algoritmos de Inteligencia Artificial para la clasificación automática de galaxias a partir de una imagen."
Engaging and practical course
"Excelente ejercicio práctico para entender mejor los conceptos..."
"muy practico, excelente curso!!"
"Un excelente curso de cierre para el programa especializado en Big Data."
"Me encanto el curso, super bien explicado, muy sencillo para personas que se adentran en el mundo de Big Data..."
Peer review process could be improved
"En mi opinión las peer review deberían tener instrucciones más precisas para evitar que la gente haga correcciones erróneas."

Activities

Be better prepared before your course. Deepen your understanding during and after it. Supplement your coursework and achieve mastery of the topics covered in Big Data: capstone project with these activities:
Refresher course on Cloud Computing
By refreshing your knowledge on Cloud Computing, you will solidify your understanding of the fundamental concepts necessary to succeed in this course.
Browse courses on Cloud Computing
Show steps
  • Review the fundamental concepts of Cloud Computing, such as its architecture, types of cloud services, and deployment models.
  • Explore the services and resources offered by the major cloud providers.
  • Create a simple cloud computing environment and experiment with different cloud services.
Read "Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow" by Aurélien Géron
This book provides a comprehensive overview of machine learning and deep learning techniques and will help you to build a strong foundation in these areas.
Show steps
  • Read the book from cover to cover.
  • Work through the exercises at the end of each chapter.
  • Implement the techniques that you learn in your own projects.
Tutorial on using the Apache Spark framework
Apache Spark is a powerful tool for data processing, and this tutorial will give you hands-on experience using it. This will enhance your understanding of the concepts covered in the course.
Browse courses on Apache Spark
Show steps
  • Follow the Apache Spark tutorial on their official website.
  • Create a simple Spark application to perform data analysis tasks.
  • Explore the different Spark libraries and modules.
Four other activities
Expand to see all activities and additional details
Show all seven activities
Mentor other students in the course
Mentoring others is a great way to reinforce your own knowledge and to help others succeed in the course.
Show steps
  • Identify a student who is struggling and offer your help.
  • Meet with the student regularly to provide guidance and support.
  • Review the student's work and provide feedback.
  • Encourage the student to ask questions and seek help when needed.
Practice exercises on data modeling and machine learning algorithms
Practice is key to mastering data modeling and machine learning algorithms. These exercises will provide you with the opportunity to apply your knowledge and solidify your understanding.
Browse courses on Data Modeling
Show steps
  • Complete the practice exercises at the end of each module in the course.
  • Find additional practice exercises online or in textbooks.
  • Participate in online forums or discussion groups to discuss your solutions and learn from others.
  • Use a tool like Kaggle to participate in data science competitions.
Create a portfolio of data science projects
Creating a portfolio of data science projects will showcase your skills and knowledge to potential employers or clients. It will also help you to reflect on your progress and identify areas for improvement.
Browse courses on Data Science Projects
Show steps
  • Identify a data science problem that you are interested in solving.
  • Collect and prepare the necessary data.
  • Build and evaluate a machine learning model.
  • Create a presentation or report that summarizes your findings.
  • Add the project to your portfolio and share it with others.
Create a data science blog or podcast
Creating a data science blog or podcast is a great way to share your knowledge with others and establish yourself as an expert in the field.
Show steps
  • Choose a topic for your blog or podcast that you are passionate about.
  • Create high-quality content that is informative and engaging.
  • Promote your blog or podcast on social media and other channels.
  • Network with other data scientists and collaborate on content.

Career center

Learners who complete Big Data: capstone project will develop knowledge and skills that may be useful to these careers:
Machine Learning Engineer
Machine Learning Engineers oversee the development, deployment, and maintenance of ML models. This course will help build foundational skills as a Machine Learning Engineer, as they will gain experience in processing real-world datasets, creating and optimizing models, and evaluating and interpreting model performance.
Data Scientist
Data Scientists seek to discover actionable insights from data. This course will help build the foundation for a Data Scientist, as they will gain familiarity and hands-on experience in data exploration, model construction, and machine learning.
Data Analyst
Data Analysts translate data into actionable insights for businesses. This course will help build the foundation for a Data Analyst, as they will gain experience in data exploration, data visualization, and statistical analysis.
Software Engineer
Software Engineers design, develop, test, and maintain software systems. This course may be helpful for Software Engineers who want to build their expertise in big data technologies, such as Hadoop and Spark.
Data Architect
Data Architects design and build data architectures that meet the needs of an organization. This course may be helpful for Data Architects who want to gain experience in designing and implementing big data solutions.
Database Administrator
Database Administrators are responsible for the management and maintenance of databases. This course may be helpful for Database Administrators who want to gain experience in managing and maintaining big data systems.
Business Intelligence Analyst
Business Intelligence Analysts use data to help businesses make better decisions. This course may be helpful for Business Intelligence Analysts who want to gain experience in using big data to solve business problems.
Operations Research Analyst
Operations Research Analysts use mathematical models to solve business problems. This course may be helpful for Operations Research Analysts who want to gain experience in using big data to solve operations research problems.
Quantitative Analyst
Quantitative Analysts use mathematical and statistical models to assess risk and make investment decisions. This course may be helpful for Quantitative Analysts who want to gain experience in using big data to solve financial problems.
Actuary
Actuaries use mathematical and statistical models to assess risk and make insurance decisions. This course may be helpful for Actuaries who want to gain experience in using big data to solve insurance problems.
Chemist
Chemists study the composition and properties of matter. This course may be helpful for Chemists who want to gain experience in using big data to solve chemistry problems.
Epidemiologist
Epidemiologists investigate the causes and distribution of diseases. This course may be helpful for Epidemiologists who want to gain experience in using big data to solve public health problems.
Astronomer
Astronomers study the universe and its contents. This course may be helpful for Astronomers who want to gain experience in using big data to solve astrophysics problems.
Market Researcher
Market Researchers collect and analyze data to understand consumer behavior. This course may be helpful for Market Researchers who want to gain experience in using big data to solve marketing problems.
Statistician
Statisticians collect, analyze, and interpret data. This course may be helpful for Statisticians who want to gain experience in using big data to solve statistical problems.

Reading list

We've selected 11 books that we think will supplement your learning. Use these to develop background knowledge, enrich your coursework, and gain a deeper understanding of the topics covered in Big Data: capstone project.
Este libro se centra en los algoritmos y técnicas para el procesamiento y análisis de conjuntos de datos masivos. Proporciona una base sólida en los métodos computacionales utilizados para extraer información de grandes cantidades de datos.
Este libro es una referencia completa sobre el aprendizaje profundo, que cubre una amplia gama de temas, desde los fundamentos hasta las aplicaciones avanzadas. Proporciona información en profundidad sobre los algoritmos y técnicas esenciales para el aprendizaje automático.
Este libro proporciona una guía práctica para el análisis de macrodatos, cubriendo temas como la preparación de datos, el análisis exploratorio y el modelado predictivo. Es una valiosa referencia para los estudiantes que buscan desarrollar habilidades prácticas en el procesamiento y análisis de macrodatos.
Este libro es una referencia clásica sobre minería de datos, que cubre una amplia gama de técnicas y algoritmos para el análisis de datos. Proporciona una base sólida en los fundamentos y aplicaciones de la minería de datos.
Esta obra proporciona una base matemática sólida para el aprendizaje automático, cubriendo conceptos como la teoría de la probabilidad, la optimización y el análisis estadístico. Es una lectura valiosa para los estudiantes que buscan una comprensión más profunda de los fundamentos teóricos del aprendizaje automático.
Esta obra proporciona una guía práctica para utilizar bibliotecas populares de aprendizaje automático, como Scikit-Learn, Keras y TensorFlow. Es una valiosa referencia para los estudiantes que buscan desarrollar habilidades prácticas en la implementación de algoritmos de aprendizaje automático.
Esta obra es un recurso valioso para aprender sobre las aplicaciones práticas de la ciencia de datos en el ámbito empresarial. Proporciona una comprensión sólida de los procesos y técnicas involucrados en el análisis de datos y la toma de decisiones basada en datos.
Esta obra proporciona una guía práctica para utilizar la biblioteca Pandas en Python para el análisis y la manipulación de datos. Es una valiosa referencia para los estudiantes que buscan desarrollar habilidades prácticas en el procesamiento y análisis de datos.
Este libro se centra en la implementación práctica del aprendizaje automático utilizando Python. Proporciona ejemplos y ejercicios prácticos que ayudan a los estudiantes a aplicar los conceptos de aprendizaje automático a proyectos del mundo real.
Esta obra ofrece un enfoque probabilístico del aprendizaje automático, cubriendo temas como modelos gráficos, métodos bayesianos y teoría de la información. Es una lectura valiosa para los estudiantes interesados en comprender los fundamentos teóricos del aprendizaje automático.

Share

Help others find this course page by sharing it with your friends and followers:

Similar courses

Here are nine courses similar to Big Data: capstone project.
Introducción a la ciencia de datos aplicada
Most relevant
Creatividad, diseño e innovación: Técnicas y herramientas...
Most relevant
Analítica de Procesos: Optimización desde los Datos
Most relevant
Escritura académica. Estilos de citación y referenciación.
Most relevant
Crear tablas de bases de datos relacionales con...
Most relevant
Metodología de la ciencia de datos
Most relevant
Principios esenciales de diseño en Tableau
Most relevant
Visión artificial contemporánea
Most relevant
Trabajar con datos en Android
Most relevant
Our mission

OpenCourser helps millions of learners each year. People visit us to learn workspace skills, ace their exams, and nurture their curiosity.

Our extensive catalog contains over 50,000 courses and twice as many books. Browse by search, by topic, or even by career interests. We'll match you to the right resources quickly.

Find this site helpful? Tell a friend about us.

Affiliate disclosure

We're supported by our community of learners. When you purchase or subscribe to courses and programs or purchase books, we may earn a commission from our partners.

Your purchases help us maintain our catalog and keep our servers humming without ads.

Thank you for supporting OpenCourser.

© 2016 - 2024 OpenCourser