Bienvenidos al curso Spark y Scala en Databricks: Big Data e ingeniería de datos.
En este curso aprenderás a trabajar con Scala-Spark en Databricks.
Spark es esencialmente un sistema distribuido que fue diseñado para procesar un gran volumen de datos de manera eficiente y rápida. El objetivo de este curso es aprender a trabajar con las principales abstracciones de Spark, las cuales son los RDDs y los DataFrames.
Bienvenidos al curso Spark y Scala en Databricks: Big Data e ingeniería de datos.
En este curso aprenderás a trabajar con Scala-Spark en Databricks.
Spark es esencialmente un sistema distribuido que fue diseñado para procesar un gran volumen de datos de manera eficiente y rápida. El objetivo de este curso es aprender a trabajar con las principales abstracciones de Spark, las cuales son los RDDs y los DataFrames.
El material que proponemos en el curso está pensado para todas las personas que bien deseen iniciarse en el trabajo con Spark, o que por otro lado, deseen consolidar los conocimientos que ya poseen sobre los temas que se abordarán. El curso está diseñado de una forma progresiva y gradual que le permitirá al estudiante entender y desarrollar las principales habilidades para el trabajo con RDDs y DataFrames en Spark. Además, se abordarán temas avanzados que le permitirán optimizar las aplicaciones de Spark que pueda construir en un futuro, o bien, mejorar aquellas que ya se tengan implementadas.
Empezamos el curso con una breve introducción al Big Data y a Spark. Posteriormente continuamos con una sección dedicada a explicar los aspectos fundamentales de Databricks Community Edition que necesitaremos para el desarrollo del curso. Una vez hayan concluido esta sección, estarán en condiciones de ejecutar notebooks de Scala-Spark en Databricks. Las siguientes secciones del curso están pensadas para entender y aplicar en la práctica las principales cuestiones sobre los RDDs y los DataFrames.
El temario procura en todo momento analizar temas específicos por cada lección, permitiéndole así al estudiante localizar rápidamente cualquier contenido de una forma rápida. La mayoría de las lecciones están conformadas por una parte teórica y otra práctica.
Mi nombre es José Miguel Moya y me desempeño actualmente como Ingeniero de Datos. Como parte de mi trabajo diario utilizo Spark con Python y Scala para obtener y procesar enormes cantidades de datos.
Te invito a que veas el video de presentación del curso y las lecciones gratuitas.
Te espero en el curso, tenga usted un cordial saludo.
En esta lección damos la bienvenida y la introducción al curso.
En esta lección daremos una breve introducción sobre Big Data.
En esta lección hablaremos de los principales componentes de Apache Spark y daremos una breve descripción de cada uno de ellos.
En esta lección veremos qué es Databricks Community Edition.
En esta lección aprenderemos a crear una cuenta en Databricks Community Edition.
En esta lección explicaremos el ambiente de trabajo de Databricks.
En esta lección aprenderemos a crear un cluster en Databricks.
En esta lección aprenderemos las diferentes maneras de crear un notebook en Databricks.
En esta lección aprenderemos a importar datos al sistema de archivos de Databricks.
En esta lección aprenderemos que es una sesión de Spark y como crearla.
En esta lección aprenderemos que es un RDD y cuáles son sus características principales.
En esta lección aprenderemos a crear un RDD de diferentes formas.
En esta lección aprenderemos sobre las transformaciones que podemos realizar sobre un RDD.
En esta lección estudiaremos la transformación map.
En esta lección estudiaremos la transformación flatMap.
En esta lección estudiaremos la transformación filter.
En esta lección estudiaremos la transformación coalesce.
En esta lección estudiaremos la transformación repartition.
En esta lección aprenderemos a trabajar con la función reduceByKey.
En esta lección aprenderemos a realizar agregaciones con pivote.
En esta lección aprenderemos sobre el funcionamiento de las acciones en los RDD.
En esta lección aprenderemos a trabajar con la función reduce.
En esta lección aprenderemos a trabajar con la función count.
En esta lección aprenderemos a trabajar con la función collect.
En esta lección aprenderemos a trabajar con las funciones, take, max y saveAsTextFile.
En esta lección conoceremos sobre los joins en Spark.
En esta lección aprenderemos a manejar el almacenamiento en memoria en Spark.
En esta lección aprenderemos sobre el particionado en Spark.
En esta lección aprenderemos sobre el shuffling en Spark.
En esta lección aprenderemos a trabajar con las variables broadcast y conoceremos de las ventajas que nos ofrece.
En esta lección aprenderemos qué son los acumuladores en Spark, cómo trabajar con ellos y algunos de sus usos.
En esta lectura daremos una introducción a Spark SQL.
En esta lección aprenderemos a crear un DataFrame a partir de un RDD.
En esta lección aprenderemos a crear DataFrames a partir de fuentes de datos.
En esta lección veremos en la práctica como crear un DataFrame desde diversas fuentes de datos.
En esta sección aprenderemos a trabajar con las columnas en Spark.
En esta lección aprenderemos a trabajar con las funciones select y selectExpr.
En esta lección aprenderemos a trabajar con las transformaciones filter y where.
En esta lección aprenderemos a trabajar con las transformaciones distinct y dropDuplicates.
En esta lección aprenderemos a trabajar con las funciones withColumn y withColumRenamed.
En esta lección aprenderemos a trabajar con las funciones drop, sample y randomSplit.
En esta lección aprenderemos a manejar los datos incorrectos o faltantes en Spark.
Esta lección cubre algunas de las acciones más comunes sobre un dataframe.
En esta lección veremos cómo podemos escribir los DataFrame en Spark y las diferentes opciones que tenemos para realizar este proceso.
En esta lección aprenderemos a persistir los DataFrames en Spark.
En esta lección aprenderemos a trabajar con las funciones de ventana en Spark.
En esta lección hablaremos sobre las agregaciones en Spark.
En esta lección aprenderemos a trabajar con las funciones count, countDistinct y approx_count_distinct.
En esta lección aprenderemos a trabajar con las funciones min y max.
En esta lección aprenderemos a trabajar con las funciones sum, sum_distinct y avg.
En esta lección veremos la agregación con agrupación de una o más columnas.
En esta lección aprenderemos a realizar varias agregaciones por grupo.
En esta lección veremos las piezas de información que componen un join y los diferentes tipos de join que podemos realizar.
En esta lección aprenderemos a trabajar con el inner join en Spark.
En esta lección estudiaremos el left outer join en Spark.
En esta lección aprenderemos a trabajar con el right outer join en Spark.
En esta lección aprenderemos a trabajar con el full outer join en Spark.
En esta lección estudiaremos el left anti join en Spark.
En esta lección aprenderemos a trabajar con el left semi join en Spark.
En esta lección aprenderemos a trabajar con el cross join en Spark.
En esta lección aprenderemos a trabajar con nombres de columnas duplicados a la hora de realizar los diferentes tipos de join en Spark.
En esta lección aprenderemos sobre las dos estrategias que Spark emplea para realizar los join, Shuffle Hash Join y Broadcast Hash Join.
En esta lección aprenderemos a trabajar con funciones de fecha y hora en Spark.
En esta lección aprenderemos a trabajar con algunas funciones que Spark nos proporciona para manipular strings.
En esta lección veremos algunas funciones que nos permiten trabajar con colecciones en Spark.
En esta lección aprenderemos a trabajar con las funciones when, coalesce y lit.
En esta lección aprenderemos a crear funciones definidas por el usuario, UDF por sus siglas en inglés.
En esta lección aprenderemos como Spark optimiza las consultas en las API de DataFrame y SQL para que estas se ejecuten de manera eficiente y rápida.
OpenCourser helps millions of learners each year. People visit us to learn workspace skills, ace their exams, and nurture their curiosity.
Our extensive catalog contains over 50,000 courses and twice as many books. Browse by search, by topic, or even by career interests. We'll match you to the right resources quickly.
Find this site helpful? Tell a friend about us.
We're supported by our community of learners. When you purchase or subscribe to courses and programs or purchase books, we may earn a commission from our partners.
Your purchases help us maintain our catalog and keep our servers humming without ads.
Thank you for supporting OpenCourser.