Spark y Scala en Databricks: Big Data e ingeniería de datos from Udemy

What's inside

Syllabus

Al finalizar esta sección el estudiante conocerá los aspectos fundamentales sobre el Big Data y Apache Spark.

En esta lección damos la bienvenida y la introducción al curso.

En esta lección daremos una breve introducción sobre Big Data.

En esta lección hablaremos de los principales componentes de Apache Spark y daremos una breve descripción de cada uno de ellos.

Al finalizar esta sección el estudiante conocerá que es Databricks Community Edition y estará familiarizado con el ambiente de trabajo de la plataforma.

En esta lección veremos qué es Databricks Community Edition.

En esta lección aprenderemos a crear una cuenta en Databricks Community Edition.

En esta lección explicaremos el ambiente de trabajo de Databricks.

En esta lección aprenderemos a crear un cluster en Databricks.

En esta lección aprenderemos las diferentes maneras de crear un notebook en Databricks.

En esta lección aprenderemos a importar datos al sistema de archivos de Databricks.

Al finalizar esta sección el estudiante será capaz de crear una sesión de Spark, conocer que es un RDD y las diversas formas de crearlo.

En esta lección aprenderemos que es una sesión de Spark y como crearla.

En esta lección aprenderemos que es un RDD y cuáles son sus características principales.

En esta lección aprenderemos a crear un RDD de diferentes formas.

Ejercicios

Resolución de los ejercicios

Al concluir esta sección el estudiante conocerá la naturaleza Lazy Evaluation de las transformaciones en Spark. Además será capaz de trabajar con las principales transformaciones de Spark.

En esta lección aprenderemos sobre las transformaciones que podemos realizar sobre un RDD.

En esta lección estudiaremos la transformación map.

En esta lección estudiaremos la transformación flatMap.

En esta lección estudiaremos la transformación filter.

En esta lección estudiaremos la transformación coalesce.

En esta lección estudiaremos la transformación repartition.

En esta lección aprenderemos a trabajar con la función reduceByKey.

En esta lección aprenderemos a realizar agregaciones con pivote.

Al concluir esta sección el estudiante conocerá los aspectos fundamentales sobre los dataframes en Spark así como algunas de las transformaciones y acciones más comunes aplicables a ellos.

Al terminar esta sección el estudiante será capaz de trabajar con las acciones más comunmente empleadas en la práctica.

En esta lección aprenderemos sobre el funcionamiento de las acciones en los RDD.

En esta lección aprenderemos a trabajar con la función reduce.

En esta lección aprenderemos a trabajar con la función count.

En esta lección aprenderemos a trabajar con la función collect.

En esta lección aprenderemos a trabajar con las funciones, take, max y saveAsTextFile.

En esta lección conoceremos sobre los joins en Spark.

Al finalizar esta sección el estudiante conocerá los aspectos avanzados sobre los RDD en Spark los cuales le permitirán optimizar sus aplicaciones.

En esta lección aprenderemos a manejar el almacenamiento en memoria en Spark.

En esta lección aprenderemos sobre el particionado en Spark.

En esta lección aprenderemos sobre el shuffling en Spark.

En esta lección aprenderemos a trabajar con las variables broadcast y conoceremos de las ventajas que nos ofrece.

En esta lección aprenderemos qué son los acumuladores en Spark, cómo trabajar con ellos y algunos de sus usos.

En esta lectura daremos una introducción a Spark SQL.

En esta lección aprenderemos a crear un DataFrame a partir de un RDD.

En esta lección aprenderemos a crear DataFrames a partir de fuentes de datos.

En esta lección veremos en la práctica como crear un DataFrame desde diversas fuentes de datos.

En esta sección aprenderemos a trabajar con las columnas en Spark.

En esta lección aprenderemos a trabajar con las funciones select y selectExpr.

En esta lección aprenderemos a trabajar con las transformaciones filter y where.

En esta lección aprenderemos a trabajar con las transformaciones distinct y dropDuplicates.

En esta lección aprenderemos a trabajar con las funciones withColumn y withColumRenamed.

En esta lección aprenderemos a trabajar con las funciones drop, sample y randomSplit.

En esta lección aprenderemos a manejar los datos incorrectos o faltantes en Spark.

Esta lección cubre algunas de las acciones más comunes sobre un dataframe.

En esta lección veremos cómo podemos escribir los DataFrame en Spark y las diferentes opciones que tenemos para realizar este proceso.

En esta lección aprenderemos a persistir los DataFrames en Spark.

En esta lección aprenderemos a trabajar con las funciones de ventana en Spark.

Al finalizar esta sección el estudiante conocerá cómo trabajar con agregaciones. Además, conocerá y dominará los diferentes tipos de joins existentes así como sus diversos usos.

En esta lección hablaremos sobre las agregaciones en Spark.

En esta lección aprenderemos a trabajar con las funciones count, countDistinct y approx_count_distinct.

En esta lección aprenderemos a trabajar con las funciones min y max.

En esta lección aprenderemos a trabajar con las funciones sum, sum_distinct y avg.

En esta lección veremos la agregación con agrupación de una o más columnas.

En esta lección aprenderemos a realizar varias agregaciones por grupo.

En esta lección veremos las piezas de información que componen un join y los diferentes tipos de join que podemos realizar.

En esta lección aprenderemos a trabajar con el inner join en Spark.

En esta lección estudiaremos el left outer join en Spark.

En esta lección aprenderemos a trabajar con el right outer join en Spark.

En esta lección aprenderemos a trabajar con el full outer join en Spark.

En esta lección estudiaremos el left anti join en Spark.

En esta lección aprenderemos a trabajar con el left semi join en Spark.

En esta lección aprenderemos a trabajar con el cross join en Spark.

En esta lección aprenderemos a trabajar con nombres de columnas duplicados a la hora de realizar los diferentes tipos de join en Spark.

En esta lección aprenderemos sobre las dos estrategias que Spark emplea para realizar los join, Shuffle Hash Join y Broadcast Hash Join.

Al terminar esta sección aprenderá cuáles son las principales funciones para el trabajo con fecha y hora, strings, colecciones y UDF. Además, aprenderá cómo Spark optimiza las consultas que realiza.

En esta lección aprenderemos a trabajar con funciones de fecha y hora en Spark.

En esta lección aprenderemos a trabajar con algunas funciones que Spark nos proporciona para manipular strings.

En esta lección veremos algunas funciones que nos permiten trabajar con colecciones en Spark.

En esta lección aprenderemos a trabajar con las funciones when, coalesce y lit.

En esta lección aprenderemos a crear funciones definidas por el usuario, UDF por sus siglas en inglés.

En esta lección aprenderemos como Spark optimiza las consultas en las API de DataFrame y SQL para que estas se ejecuten de manera eficiente y rápida.

Al finalizar esta sección el estudiante habrá integrado y consolidado todo el conocimiento adquirido en el curso a través de un conjunto de ejercicios prácticos.

Proyecto final

Resolución del proyecto final

Activities

Be better prepared before your course. Deepen your understanding during and after it. Supplement your coursework and achieve mastery of the topics covered in Spark y Scala en Databricks: Big Data e ingeniería de datos with these activities:

Repasar los fundamentos de Scala

Show steps

Refresca los conceptos básicos de Scala para comprender mejor el código de Spark escrito en Scala.

Browse courses on Scala

Show steps

Revisa la documentación oficial de Scala.
Completa ejercicios de programación en Scala.
Lee ejemplos de código Scala.

Revisar 'Learning Scala'

Show steps

Refuerza los fundamentos de Scala con un enfoque práctico y funcional.

View Putting Knowledge to Work on Amazon

Show steps

Lee los capítulos sobre tipos de datos y funciones.
Realiza los ejercicios de programación del libro.
Utiliza el libro como referencia para la sintaxis de Scala.

Revisar 'Spark: The Definitive Guide'

Show steps

Profundiza en los conceptos de Spark con una guía completa y detallada.

View Putting Knowledge to Work on Amazon

Show steps

Lee los capítulos relevantes sobre RDDs y DataFrames.
Realiza los ejercicios de ejemplo del libro.
Consulta el libro como referencia durante el curso.

Four other activities

Expand to see all activities and additional details

Show all seven activities

Practicar ejercicios de manipulación de DataFrames

Show steps

Refuerza las habilidades de manipulación de DataFrames mediante la resolución de ejercicios prácticos.

Show steps

Encuentra conjuntos de datos públicos para practicar.
Implementa transformaciones y acciones comunes en DataFrames.
Escribe pruebas unitarias para verificar la corrección del código.

Ayudar a otros estudiantes en el foro del curso

Show steps

Refuerza el aprendizaje al explicar conceptos a otros estudiantes y responder a sus preguntas.

Show steps

Revisa el foro del curso regularmente.
Responde a las preguntas de otros estudiantes de manera clara y concisa.
Comparte ejemplos de código y recursos útiles.

Crear un blog sobre optimización de Spark

Show steps

Consolida el conocimiento sobre optimización de Spark mediante la creación de contenido educativo.

Show steps

Investiga técnicas de optimización de Spark.
Escribe un artículo de blog detallado con ejemplos de código.
Publica el blog y comparte en redes sociales.

Desarrollar una canalización de datos con Spark

Show steps

Aplica los conocimientos adquiridos en el curso para construir una canalización de datos completa.

Show steps

Define los requisitos de la canalización de datos.
Diseña la arquitectura de la canalización de datos.
Implementa la canalización de datos con Spark y Scala.
Prueba y optimiza la canalización de datos.

Career center

Learners who complete Spark y Scala en Databricks: Big Data e ingeniería de datos will develop knowledge and skills that may be useful to these careers:

Desarrollador de Big Data

Un desarrollador de big data crea aplicaciones para procesar y analizar grandes volúmenes de datos. Este curso le ayudará mucho a un desarrollador de big data, ya que le proporciona las habilidades necesarias para trabajar con Spark y Scala, dos de las tecnologías más importantes en el campo del big data. El curso cubre desde los fundamentos de Spark hasta temas avanzados como la optimización de aplicaciones. Este curso es particularmente útil ya que cubre los RDDs y DataFrames, abstracciones fundamentales en Spark. Un desarrollador de big data se beneficia de este curso porque le proporciona las herramientas y conocimientos necesarios para construir aplicaciones de big data eficientes y escalables.

See salaries and explore the career path for Desarrollador de Big Data

Ingeniero de datos

Un ingeniero de datos diseña, construye y gestiona la infraestructura de datos de una organización. Este curso resulta muy útil para un ingeniero de datos, ya que proporciona una base sólida en Spark y Scala, herramientas esenciales para el procesamiento de big data. El curso abarca desde los fundamentos de Spark hasta temas avanzados como la optimización de aplicaciones, lo cual permite a un ingeniero de datos mejorar el rendimiento de sus sistemas. Adicionalmente, este curso cubre la manipulación de RDDs y DataFrames, temas que le permiten analizar datos de manera eficiente. Dado que el curso se centra en Scala-Spark en Databricks, un ingeniero de datos aprende a trabajar en un entorno práctico y moderno.

See salaries and explore the career path for Ingeniero de datos

Científico de datos

Un científico de datos utiliza técnicas avanzadas para extraer conocimiento de los datos y construir modelos predictivos. Este curso le puede ser de gran utilidad a un científico de datos, ya que abarca temas como Spark y Scala, que son fundamentales para el procesamiento y análisis de grandes conjuntos de datos. El curso cubre los RDDs y DataFrames, que son abstracciones clave en Spark para la manipulación de datos. Además, el curso se enfoca en Databricks, una plataforma popular para el desarrollo y la implementación de modelos de ciencia de datos. Este curso en particular puede ayudar a un científico de datos a optimizar sus aplicaciones y a trabajar con datos a escala.

See salaries and explore the career path for Científico de datos

Analista de Datos

Un analista de datos interpreta y analiza datos para proporcionar información valiosa a las organizaciones. Este curso puede ser útil para un analista de datos, ya que le enseña a utilizar Spark para procesar grandes volúmenes de datos de manera eficiente. El conocimiento de RDDs y DataFrames en Spark, cubierto en el curso, ayuda al analista a transformar y analizar datos de manera efectiva. Además, el curso proporciona una comprensión práctica de Databricks, un entorno popular para el análisis de datos. Un analista de datos se beneficia de este curso porque le permite adquirir habilidades en el uso de herramientas de big data que son cada vez más importantes en el campo del análisis.

See salaries and explore the career path for Analista de Datos

Arquitecto de Datos

Un arquitecto de datos diseña y supervisa la infraestructura de datos de una organización. Este curso puede ayudar a un arquitecto de datos, ya que proporciona información valiosa sobre Spark y Scala, tecnologías clave para el procesamiento de big data. El curso cubre los fundamentos de Spark, así como temas avanzados como la optimización de aplicaciones, lo cual permite a un arquitecto de datos tomar decisiones informadas sobre la arquitectura de datos. Adicionalmente, al cubrir Spark y Scala en Databricks, el arquitecto de datos comprenderá cómo diseñar sistemas eficientes y escalables. Un arquitecto de datos se beneficia de este curso porque le proporciona una base sólida en las herramientas y técnicas necesarias para construir una infraestructura de datos moderna.

See salaries and explore the career path for Arquitecto de Datos

Ingeniero de Machine Learning

Un ingeniero de machine learning implementa modelos de machine learning a escala. Este curso puede resultar útil para un ingeniero de machine learning, ya que le proporciona una base sólida en Spark y Scala, tecnologías que se utilizan ampliamente para el preprocesamiento de datos y el entrenamiento de modelos a gran escala. El curso cubre desde los fundamentos de Spark hasta temas avanzados como la optimización de aplicaciones. En particular, el trabajo con RDDs y DataFrames es importante para la manipulación de datos. Un ingeniero de machine learning se beneficia de este curso porque le proporciona las herramientas y conocimientos necesarios para construir e implementar modelos de machine learning a escala.

See salaries and explore the career path for Ingeniero de Machine Learning

Analista de Inteligencia de Negocios

Un analista de inteligencia de negocios (BI) utiliza datos para proporcionar información que ayuda a las organizaciones a tomar decisiones estratégicas. Este curso puede ser útil para un analista de BI, ya que le enseña a utilizar Spark para procesar grandes volúmenes de datos de manera eficiente. El conocimiento de RDDs y DataFrames en Spark, cubierto en el curso, ayuda al analista a transformar y analizar datos de manera efectiva. Además, el curso proporciona una comprensión práctica de Databricks, un entorno popular para el análisis de datos. Este curso ayuda al analista de BI a adquirir habilidades en el uso de herramientas de big data que son cada vez más importantes en el campo del análisis de negocios.

See salaries and explore the career path for Analista de Inteligencia de Negocios

Consultor de Datos

Un consultor de datos ayuda a las organizaciones a mejorar sus prácticas de gestión de datos. Este curso puede ser útil para un consultor de datos, ya que le proporciona conocimientos sobre Spark y Scala, tecnologías clave para el procesamiento de big data. El curso cubre los fundamentos de Spark, así como temas avanzados como la optimización de aplicaciones. Adicionalmente, el consultor de datos puede recomendar soluciones basadas en Databricks. Un consultor de datos podrá ayudar a sus clientes a implementar soluciones de big data eficaces y escalables.

See salaries and explore the career path for Consultor de Datos

Especialista en calidad de datos

Un especialista en calidad de datos se asegura de que los datos de una organización sean precisos y confiables. Este curso puede ser útil para un especialista en calidad de datos, ya que le proporciona herramientas para limpiar y transformar grandes volúmenes de datos utilizando Spark. El curso cubre los RDDs y DataFrames, abstracciones que facilitan la manipulación y el análisis de datos. El especialista en calidad de datos se beneficia de este curso porque le proporciona las habilidades necesarias para mejorar la calidad de los datos de una organización.

See salaries and explore the career path for Especialista en calidad de datos

Administrador de bases de datos

Un administrador de bases de datos (DBA) gestiona y mantiene las bases de datos de una organización. Este curso puede ser útil para un DBA que trabaja con grandes volúmenes de datos, ya que le proporciona conocimientos sobre Spark y Scala, que pueden utilizarse para procesar y transformar datos antes de cargarlos en la base de datos. El curso cubre desde los fundamentos de Spark hasta temas avanzados. Este curso ayuda al administrador a comprender cómo optimizar las aplicaciones de Spark y cómo trabajar con RDDs y DataFrames, lo cual es útil para la gestión de datos a escala.

See salaries and explore the career path for Administrador de bases de datos

Ingeniero de Software

Un ingeniero de software diseña y desarrolla aplicaciones de software. Este curso puede ser útil para un ingeniero de software que trabaja en proyectos de big data, ya que le proporciona las habilidades necesarias para utilizar Spark y Scala. El curso cubre desde los fundamentos de Spark hasta temas avanzados como la optimización de aplicaciones. Este curso puede ayudar al ingeniero a integrar Spark en sus proyectos de software y a trabajar con grandes volúmenes de datos de manera eficiente.

See salaries and explore the career path for Ingeniero de Software

Analista de riesgos

Un analista de riesgos evalúa y gestiona los riesgos financieros y operativos de una organización. Este curso puede ser útil para un analista de riesgos, ya que le proporciona herramientas para analizar grandes volúmenes de datos y detectar patrones que pueden indicar riesgos. El curso cubre los RDDs y DataFrames, abstracciones que facilitan la manipulación y el análisis de datos. Este curso puede ayudar al analista a identificar y mitigar riesgos de manera más efectiva.

See salaries and explore the career path for Analista de riesgos

Analista de Marketing

Un analista de marketing analiza datos para mejorar las campañas de marketing y aumentar el retorno de la inversión. Este curso puede ser útil para un analista de marketing, ya que le proporciona herramientas para procesar y analizar grandes volúmenes de datos de clientes y campañas. El curso cubre los RDDs y DataFrames, abstracciones que facilitan la manipulación y el análisis de datos. Este curso puede ayudar al analista a comprender mejor el comportamiento del cliente y a optimizar las campañas de marketing.

See salaries and explore the career path for Analista de Marketing

Investigador Académico

Un investigador académico lleva a cabo investigaciones en un campo específico de estudio. Este curso puede ser útil para un investigador académico que trabaja con grandes conjuntos de datos, ya que le proporciona las herramientas necesarias para procesar y analizar estos datos de manera eficiente. El curso cubre los RDDs y DataFrames, abstracciones que facilitan la manipulación y el análisis de datos. Este curso puede ayudar al investigador a llevar a cabo investigaciones más profundas y a obtener resultados más significativos.

See salaries and explore the career path for Investigador Académico

Analista de Fraude

Un analista de fraude investiga y previene el fraude en una organización. Este curso puede ser útil para un analista de fraude, ya que le proporciona herramientas para analizar grandes volúmenes de datos transaccionales y detectar patrones sospechosos. El curso cubre los RDDs y DataFrames, abstracciones que facilitan la manipulación y el análisis de datos. Este curso puede ayudar al analista a identificar y prevenir el fraude de manera más efectiva.

See salaries and explore the career path for Analista de Fraude

Spark y Scala en Databricks

Big Data e ingeniería de datos

What's inside

Syllabus

Save this course

Activities

Career center

Reading list

Share

Similar courses