We may earn an affiliate commission when you visit our partners.
José Miguel Moya

Bienvenidos al curso Spark y Scala en Databricks: Big Data e ingeniería de datos.

En este curso aprenderás a trabajar con Scala-Spark en Databricks.

Spark es esencialmente un sistema distribuido que fue diseñado para procesar un gran volumen de datos de manera eficiente y rápida. El objetivo de este curso es aprender a trabajar con las principales abstracciones de Spark, las cuales son los RDDs y los DataFrames.

Read more

Bienvenidos al curso Spark y Scala en Databricks: Big Data e ingeniería de datos.

En este curso aprenderás a trabajar con Scala-Spark en Databricks.

Spark es esencialmente un sistema distribuido que fue diseñado para procesar un gran volumen de datos de manera eficiente y rápida. El objetivo de este curso es aprender a trabajar con las principales abstracciones de Spark, las cuales son los RDDs y los DataFrames.

El material que proponemos en el curso está pensado para todas las personas que bien deseen iniciarse en el trabajo con Spark, o que por otro lado, deseen consolidar los conocimientos que ya poseen sobre los temas que se abordarán. El curso está diseñado de una forma progresiva y gradual que le permitirá al estudiante entender y desarrollar las principales habilidades para el trabajo con RDDs y DataFrames en Spark. Además, se abordarán temas avanzados que le permitirán optimizar las aplicaciones de Spark que pueda construir en un futuro, o bien, mejorar aquellas que ya se tengan implementadas.

Empezamos el curso con una breve introducción al Big Data y a Spark. Posteriormente continuamos con una sección dedicada a explicar los aspectos fundamentales de Databricks Community Edition que necesitaremos para el desarrollo del curso. Una vez hayan concluido esta sección, estarán en condiciones de ejecutar notebooks de Scala-Spark en Databricks. Las siguientes secciones del curso están pensadas para entender y aplicar en la práctica las principales cuestiones sobre los RDDs y los DataFrames.

El temario procura en todo momento analizar temas específicos por cada lección, permitiéndole así al estudiante localizar rápidamente cualquier contenido de una forma rápida. La mayoría de las lecciones están conformadas por una parte teórica y otra práctica.

Mi nombre es José Miguel Moya y me desempeño actualmente como Ingeniero de Datos. Como parte de mi trabajo diario utilizo Spark con Python y Scala para obtener y procesar enormes cantidades de datos.

Te invito a que veas el video de presentación del curso y las lecciones gratuitas.

Te espero en el curso, tenga usted un cordial saludo.

Enroll now

What's inside

Syllabus

Al finalizar esta sección el estudiante conocerá los aspectos fundamentales sobre el Big Data y Apache Spark.

En esta lección damos la bienvenida y la introducción al curso.

Read more

En esta lección daremos una breve introducción sobre Big Data.

En esta lección hablaremos de los principales componentes de Apache Spark y daremos una breve descripción de cada uno de ellos.

Al finalizar esta sección el estudiante conocerá que es Databricks Community Edition y estará familiarizado con el ambiente de trabajo de la plataforma.

En esta lección veremos qué es Databricks Community Edition.

En esta lección aprenderemos a crear una cuenta en Databricks Community Edition.

En esta lección explicaremos el ambiente de trabajo de Databricks.

En esta lección aprenderemos a crear un cluster en Databricks.

En esta lección aprenderemos las diferentes maneras de crear un notebook en Databricks.

En esta lección aprenderemos a importar datos al sistema de archivos de Databricks.

Al finalizar esta sección el estudiante será capaz de crear una sesión de Spark, conocer que es un RDD y las diversas formas de crearlo.

En esta lección aprenderemos que es una sesión de Spark y como crearla.

En esta lección aprenderemos que es un RDD y cuáles son sus características principales.

En esta lección aprenderemos a crear un RDD de diferentes formas.

Ejercicios
Resolución de los ejercicios
Al concluir esta sección el estudiante conocerá la naturaleza Lazy Evaluation de las transformaciones en Spark. Además será capaz de trabajar con las principales transformaciones de Spark.

En esta lección aprenderemos sobre las transformaciones que podemos realizar sobre un RDD.

En esta lección estudiaremos la transformación map.

En esta lección estudiaremos la transformación flatMap.

En esta lección estudiaremos la transformación filter.

En esta lección estudiaremos la transformación coalesce.

En esta lección estudiaremos la transformación repartition.

En esta lección aprenderemos a trabajar con la función reduceByKey.

En esta lección aprenderemos a realizar agregaciones con pivote.

Al concluir esta sección el estudiante conocerá los aspectos fundamentales sobre los dataframes en Spark así como algunas de las transformaciones y acciones más comunes aplicables a ellos.
Al terminar esta sección el estudiante será capaz de trabajar con las acciones más comunmente empleadas en la práctica.

En esta lección aprenderemos sobre el funcionamiento de las acciones en los RDD.

En esta lección aprenderemos a trabajar con la función reduce.

En esta lección aprenderemos a trabajar con la función count.

En esta lección aprenderemos a trabajar con la función collect.

En esta lección aprenderemos a trabajar con las funciones, take, max y saveAsTextFile.

En esta lección conoceremos sobre los joins en Spark.

Al finalizar esta sección el estudiante conocerá los aspectos avanzados sobre los RDD en Spark los cuales le permitirán optimizar sus aplicaciones.

En esta lección aprenderemos a manejar el almacenamiento en memoria en Spark.

En esta lección aprenderemos sobre el particionado en Spark.

En esta lección aprenderemos sobre el shuffling en Spark.

En esta lección aprenderemos a trabajar con las variables broadcast y conoceremos de las ventajas que nos ofrece.

En esta lección aprenderemos qué son los acumuladores en Spark, cómo trabajar con ellos y algunos de sus usos.

En esta lectura daremos una introducción a Spark SQL.

En esta lección aprenderemos a crear un DataFrame a partir de un RDD.

En esta lección aprenderemos a crear DataFrames a partir de fuentes de datos.

En esta lección veremos en la práctica como crear un DataFrame desde diversas fuentes de datos.

En esta sección aprenderemos a trabajar con las columnas en Spark.

En esta lección aprenderemos a trabajar con las funciones select y selectExpr.

En esta lección aprenderemos a trabajar con las transformaciones filter y where.

En esta lección aprenderemos a trabajar con las transformaciones distinct y dropDuplicates.

En esta lección aprenderemos a trabajar con las funciones withColumn y withColumRenamed.

En esta lección aprenderemos a trabajar con las funciones drop, sample y randomSplit.

En esta lección aprenderemos a manejar los datos incorrectos o faltantes en Spark.

Esta lección cubre algunas de las acciones más comunes sobre un dataframe.

En esta lección veremos cómo podemos escribir los DataFrame en Spark y las diferentes opciones que tenemos para realizar este proceso.

En esta lección aprenderemos a persistir los DataFrames en Spark.

En esta lección aprenderemos a trabajar con las funciones de ventana en Spark.

Al finalizar esta sección el estudiante conocerá cómo trabajar con agregaciones. Además, conocerá y dominará los diferentes tipos de joins existentes así como sus diversos usos.

En esta lección hablaremos sobre las agregaciones en Spark.

En esta lección aprenderemos a trabajar con las funciones count, countDistinct y approx_count_distinct.

En esta lección aprenderemos a trabajar con las funciones min y max.

En esta lección aprenderemos a trabajar con las funciones sum, sum_distinct y avg.

En esta lección veremos la agregación con agrupación de una o más columnas.

En esta lección aprenderemos a realizar varias agregaciones por grupo.

En esta lección veremos las piezas de información que componen un join y los diferentes tipos de join que podemos realizar.

En esta lección aprenderemos a trabajar con el inner join en Spark.

En esta lección estudiaremos el left outer join en Spark.

En esta lección aprenderemos a trabajar con el right outer join en Spark.

En esta lección aprenderemos a trabajar con el full outer join en Spark.

En esta lección estudiaremos el left anti join en Spark.

En esta lección aprenderemos a trabajar con el left semi join en Spark.

En esta lección aprenderemos a trabajar con el cross join en Spark.

En esta lección aprenderemos a trabajar con nombres de columnas duplicados a la hora de realizar los diferentes tipos de join en Spark.

En esta lección aprenderemos sobre las dos estrategias que Spark emplea para realizar los join, Shuffle Hash Join y Broadcast Hash Join.

Al terminar esta sección aprenderá cuáles son las principales funciones para el trabajo con fecha y hora, strings, colecciones y UDF. Además, aprenderá cómo Spark optimiza las consultas que realiza.

En esta lección aprenderemos a trabajar con funciones de fecha y hora en Spark.

En esta lección aprenderemos a trabajar con algunas funciones que Spark nos proporciona para manipular strings.

En esta lección veremos algunas funciones que nos permiten trabajar con colecciones en Spark.

En esta lección aprenderemos a trabajar con las funciones when, coalesce y lit.

En esta lección aprenderemos a crear funciones definidas por el usuario, UDF por sus siglas en inglés.

En esta lección aprenderemos como Spark optimiza las consultas en las API de DataFrame y SQL para que estas se ejecuten de manera eficiente y rápida.

Al finalizar esta sección el estudiante habrá integrado y consolidado todo el conocimiento adquirido en el curso a través de un conjunto de ejercicios prácticos.
Proyecto final
Resolución del proyecto final

Save this course

Save Spark y Scala en Databricks: Big Data e ingeniería de datos to your list so you can find it easily later:
Save

Activities

Be better prepared before your course. Deepen your understanding during and after it. Supplement your coursework and achieve mastery of the topics covered in Spark y Scala en Databricks: Big Data e ingeniería de datos with these activities:
Repasar los fundamentos de Scala
Refresca los conceptos básicos de Scala para comprender mejor el código de Spark escrito en Scala.
Browse courses on Scala
Show steps
  • Revisa la documentación oficial de Scala.
  • Completa ejercicios de programación en Scala.
  • Lee ejemplos de código Scala.
Revisar 'Learning Scala'
Refuerza los fundamentos de Scala con un enfoque práctico y funcional.
Show steps
  • Lee los capítulos sobre tipos de datos y funciones.
  • Realiza los ejercicios de programación del libro.
  • Utiliza el libro como referencia para la sintaxis de Scala.
Revisar 'Spark: The Definitive Guide'
Profundiza en los conceptos de Spark con una guía completa y detallada.
Show steps
  • Lee los capítulos relevantes sobre RDDs y DataFrames.
  • Realiza los ejercicios de ejemplo del libro.
  • Consulta el libro como referencia durante el curso.
Four other activities
Expand to see all activities and additional details
Show all seven activities
Practicar ejercicios de manipulación de DataFrames
Refuerza las habilidades de manipulación de DataFrames mediante la resolución de ejercicios prácticos.
Show steps
  • Encuentra conjuntos de datos públicos para practicar.
  • Implementa transformaciones y acciones comunes en DataFrames.
  • Escribe pruebas unitarias para verificar la corrección del código.
Ayudar a otros estudiantes en el foro del curso
Refuerza el aprendizaje al explicar conceptos a otros estudiantes y responder a sus preguntas.
Show steps
  • Revisa el foro del curso regularmente.
  • Responde a las preguntas de otros estudiantes de manera clara y concisa.
  • Comparte ejemplos de código y recursos útiles.
Crear un blog sobre optimización de Spark
Consolida el conocimiento sobre optimización de Spark mediante la creación de contenido educativo.
Show steps
  • Investiga técnicas de optimización de Spark.
  • Escribe un artículo de blog detallado con ejemplos de código.
  • Publica el blog y comparte en redes sociales.
Desarrollar una canalización de datos con Spark
Aplica los conocimientos adquiridos en el curso para construir una canalización de datos completa.
Show steps
  • Define los requisitos de la canalización de datos.
  • Diseña la arquitectura de la canalización de datos.
  • Implementa la canalización de datos con Spark y Scala.
  • Prueba y optimiza la canalización de datos.

Career center

Learners who complete Spark y Scala en Databricks: Big Data e ingeniería de datos will develop knowledge and skills that may be useful to these careers:
Desarrollador de Big Data
Un desarrollador de big data crea aplicaciones para procesar y analizar grandes volúmenes de datos. Este curso le ayudará mucho a un desarrollador de big data, ya que le proporciona las habilidades necesarias para trabajar con Spark y Scala, dos de las tecnologías más importantes en el campo del big data. El curso cubre desde los fundamentos de Spark hasta temas avanzados como la optimización de aplicaciones. Este curso es particularmente útil ya que cubre los RDDs y DataFrames, abstracciones fundamentales en Spark. Un desarrollador de big data se beneficia de este curso porque le proporciona las herramientas y conocimientos necesarios para construir aplicaciones de big data eficientes y escalables.
Ingeniero de datos
Un ingeniero de datos diseña, construye y gestiona la infraestructura de datos de una organización. Este curso resulta muy útil para un ingeniero de datos, ya que proporciona una base sólida en Spark y Scala, herramientas esenciales para el procesamiento de big data. El curso abarca desde los fundamentos de Spark hasta temas avanzados como la optimización de aplicaciones, lo cual permite a un ingeniero de datos mejorar el rendimiento de sus sistemas. Adicionalmente, este curso cubre la manipulación de RDDs y DataFrames, temas que le permiten analizar datos de manera eficiente. Dado que el curso se centra en Scala-Spark en Databricks, un ingeniero de datos aprende a trabajar en un entorno práctico y moderno.
Científico de datos
Un científico de datos utiliza técnicas avanzadas para extraer conocimiento de los datos y construir modelos predictivos. Este curso le puede ser de gran utilidad a un científico de datos, ya que abarca temas como Spark y Scala, que son fundamentales para el procesamiento y análisis de grandes conjuntos de datos. El curso cubre los RDDs y DataFrames, que son abstracciones clave en Spark para la manipulación de datos. Además, el curso se enfoca en Databricks, una plataforma popular para el desarrollo y la implementación de modelos de ciencia de datos. Este curso en particular puede ayudar a un científico de datos a optimizar sus aplicaciones y a trabajar con datos a escala.
Analista de Datos
Un analista de datos interpreta y analiza datos para proporcionar información valiosa a las organizaciones. Este curso puede ser útil para un analista de datos, ya que le enseña a utilizar Spark para procesar grandes volúmenes de datos de manera eficiente. El conocimiento de RDDs y DataFrames en Spark, cubierto en el curso, ayuda al analista a transformar y analizar datos de manera efectiva. Además, el curso proporciona una comprensión práctica de Databricks, un entorno popular para el análisis de datos. Un analista de datos se beneficia de este curso porque le permite adquirir habilidades en el uso de herramientas de big data que son cada vez más importantes en el campo del análisis.
Arquitecto de Datos
Un arquitecto de datos diseña y supervisa la infraestructura de datos de una organización. Este curso puede ayudar a un arquitecto de datos, ya que proporciona información valiosa sobre Spark y Scala, tecnologías clave para el procesamiento de big data. El curso cubre los fundamentos de Spark, así como temas avanzados como la optimización de aplicaciones, lo cual permite a un arquitecto de datos tomar decisiones informadas sobre la arquitectura de datos. Adicionalmente, al cubrir Spark y Scala en Databricks, el arquitecto de datos comprenderá cómo diseñar sistemas eficientes y escalables. Un arquitecto de datos se beneficia de este curso porque le proporciona una base sólida en las herramientas y técnicas necesarias para construir una infraestructura de datos moderna.
Ingeniero de Machine Learning
Un ingeniero de machine learning implementa modelos de machine learning a escala. Este curso puede resultar útil para un ingeniero de machine learning, ya que le proporciona una base sólida en Spark y Scala, tecnologías que se utilizan ampliamente para el preprocesamiento de datos y el entrenamiento de modelos a gran escala. El curso cubre desde los fundamentos de Spark hasta temas avanzados como la optimización de aplicaciones. En particular, el trabajo con RDDs y DataFrames es importante para la manipulación de datos. Un ingeniero de machine learning se beneficia de este curso porque le proporciona las herramientas y conocimientos necesarios para construir e implementar modelos de machine learning a escala.
Analista de Inteligencia de Negocios
Un analista de inteligencia de negocios (BI) utiliza datos para proporcionar información que ayuda a las organizaciones a tomar decisiones estratégicas. Este curso puede ser útil para un analista de BI, ya que le enseña a utilizar Spark para procesar grandes volúmenes de datos de manera eficiente. El conocimiento de RDDs y DataFrames en Spark, cubierto en el curso, ayuda al analista a transformar y analizar datos de manera efectiva. Además, el curso proporciona una comprensión práctica de Databricks, un entorno popular para el análisis de datos. Este curso ayuda al analista de BI a adquirir habilidades en el uso de herramientas de big data que son cada vez más importantes en el campo del análisis de negocios.
Consultor de Datos
Un consultor de datos ayuda a las organizaciones a mejorar sus prácticas de gestión de datos. Este curso puede ser útil para un consultor de datos, ya que le proporciona conocimientos sobre Spark y Scala, tecnologías clave para el procesamiento de big data. El curso cubre los fundamentos de Spark, así como temas avanzados como la optimización de aplicaciones. Adicionalmente, el consultor de datos puede recomendar soluciones basadas en Databricks. Un consultor de datos podrá ayudar a sus clientes a implementar soluciones de big data eficaces y escalables.
Especialista en calidad de datos
Un especialista en calidad de datos se asegura de que los datos de una organización sean precisos y confiables. Este curso puede ser útil para un especialista en calidad de datos, ya que le proporciona herramientas para limpiar y transformar grandes volúmenes de datos utilizando Spark. El curso cubre los RDDs y DataFrames, abstracciones que facilitan la manipulación y el análisis de datos. El especialista en calidad de datos se beneficia de este curso porque le proporciona las habilidades necesarias para mejorar la calidad de los datos de una organización.
Administrador de bases de datos
Un administrador de bases de datos (DBA) gestiona y mantiene las bases de datos de una organización. Este curso puede ser útil para un DBA que trabaja con grandes volúmenes de datos, ya que le proporciona conocimientos sobre Spark y Scala, que pueden utilizarse para procesar y transformar datos antes de cargarlos en la base de datos. El curso cubre desde los fundamentos de Spark hasta temas avanzados. Este curso ayuda al administrador a comprender cómo optimizar las aplicaciones de Spark y cómo trabajar con RDDs y DataFrames, lo cual es útil para la gestión de datos a escala.
Ingeniero de Software
Un ingeniero de software diseña y desarrolla aplicaciones de software. Este curso puede ser útil para un ingeniero de software que trabaja en proyectos de big data, ya que le proporciona las habilidades necesarias para utilizar Spark y Scala. El curso cubre desde los fundamentos de Spark hasta temas avanzados como la optimización de aplicaciones. Este curso puede ayudar al ingeniero a integrar Spark en sus proyectos de software y a trabajar con grandes volúmenes de datos de manera eficiente.
Analista de riesgos
Un analista de riesgos evalúa y gestiona los riesgos financieros y operativos de una organización. Este curso puede ser útil para un analista de riesgos, ya que le proporciona herramientas para analizar grandes volúmenes de datos y detectar patrones que pueden indicar riesgos. El curso cubre los RDDs y DataFrames, abstracciones que facilitan la manipulación y el análisis de datos. Este curso puede ayudar al analista a identificar y mitigar riesgos de manera más efectiva.
Analista de Marketing
Un analista de marketing analiza datos para mejorar las campañas de marketing y aumentar el retorno de la inversión. Este curso puede ser útil para un analista de marketing, ya que le proporciona herramientas para procesar y analizar grandes volúmenes de datos de clientes y campañas. El curso cubre los RDDs y DataFrames, abstracciones que facilitan la manipulación y el análisis de datos. Este curso puede ayudar al analista a comprender mejor el comportamiento del cliente y a optimizar las campañas de marketing.
Investigador Académico
Un investigador académico lleva a cabo investigaciones en un campo específico de estudio. Este curso puede ser útil para un investigador académico que trabaja con grandes conjuntos de datos, ya que le proporciona las herramientas necesarias para procesar y analizar estos datos de manera eficiente. El curso cubre los RDDs y DataFrames, abstracciones que facilitan la manipulación y el análisis de datos. Este curso puede ayudar al investigador a llevar a cabo investigaciones más profundas y a obtener resultados más significativos.
Analista de Fraude
Un analista de fraude investiga y previene el fraude en una organización. Este curso puede ser útil para un analista de fraude, ya que le proporciona herramientas para analizar grandes volúmenes de datos transaccionales y detectar patrones sospechosos. El curso cubre los RDDs y DataFrames, abstracciones que facilitan la manipulación y el análisis de datos. Este curso puede ayudar al analista a identificar y prevenir el fraude de manera más efectiva.

Reading list

We've selected one books that we think will supplement your learning. Use these to develop background knowledge, enrich your coursework, and gain a deeper understanding of the topics covered in Spark y Scala en Databricks: Big Data e ingeniería de datos.
Este libro es una guía completa para Apache Spark, que cubre los conceptos fundamentales y las técnicas avanzadas. Es un recurso valioso para comprender cómo funciona Spark internamente y cómo optimizar las aplicaciones de Spark. Este libro es útil como referencia durante el curso y como material de lectura adicional para profundizar en el tema.

Share

Help others find this course page by sharing it with your friends and followers:

Similar courses

Similar courses are unavailable at this time. Please try again later.
Our mission

OpenCourser helps millions of learners each year. People visit us to learn workspace skills, ace their exams, and nurture their curiosity.

Our extensive catalog contains over 50,000 courses and twice as many books. Browse by search, by topic, or even by career interests. We'll match you to the right resources quickly.

Find this site helpful? Tell a friend about us.

Affiliate disclosure

We're supported by our community of learners. When you purchase or subscribe to courses and programs or purchase books, we may earn a commission from our partners.

Your purchases help us maintain our catalog and keep our servers humming without ads.

Thank you for supporting OpenCourser.

© 2016 - 2025 OpenCourser