Joins en PySpark - Tutorial de Python

Del curso: Python para data science y big data esencial

Comenzar mi mes de prueba gratis Comprar para mi equipo

Joins en PySpark

“

A continuación vamos a mostrar, mediante unos ejemplos muy sencillos, cómo se unen bases de datos en PySpark. Lo primero que vamos a necesitar es importar el PySpark, generar nuestro objeto de configuración y nuestro objeto de contexto. Usando este último, vamos a crear dos objetos, 'x' e 'y', mediante la función 'parallelize'. Aquí, nuestros objetos van a constar de una clave y un valor. Como puedes ver, el objeto 'x' tiene cuatro claves distintas: 'a', 'b', 'c' y 'd'. En cambio, el objeto 'y' consta de tres entradas pero solo tiene dos claves distintas : la 'a' y la 'c'. Vamos a usar estos dos objetos para ver cómo funciona la función 'join'. Ejecutamos esta función 'join' sobre el objeto 'x' añadiéndole el objeto 'y' y obtenemos este "output". ¿Qué acabamos de obtener aquí? Acabamos de obtener un objeto nuevo: este objeto de aquí. Tiene tres entradas, una para cada valor que comparten los dos objetos que estábamos juntando. Así pues, aparece el valor 'c', con, primero, el siete, y…

Accede al curso completo hoy mismo

Únete hoy para acceder a más de 24.600 cursos impartidos por expertos del sector.

Joins en PySpark - Tutorial de Python

Del curso: Python para data science y big data esencial

Joins en PySpark

Practica mientras aprendes con los archivos de ejercicios.

Descarga cursos y fórmate estés donde estés

Contenido

Descubre temas de negocios

Descubre temas de creatividad

Descubre temas de tecnología