Del curso: Python para data science y big data esencial

Accede al curso completo hoy mismo

Únete hoy para acceder a más de 24.600 cursos impartidos por expertos del sector.

Joins en PySpark

Joins en PySpark

A continuación vamos a mostrar, mediante unos ejemplos muy sencillos, cómo se unen bases de datos en PySpark. Lo primero que vamos a necesitar es importar el PySpark, generar nuestro objeto de configuración y nuestro objeto de contexto. Usando este último, vamos a crear dos objetos, 'x' e 'y', mediante la función 'parallelize'. Aquí, nuestros objetos van a constar de una clave y un valor. Como puedes ver, el objeto 'x' tiene cuatro claves distintas: 'a', 'b', 'c' y 'd'. En cambio, el objeto 'y' consta de tres entradas pero solo tiene dos claves distintas : la 'a' y la 'c'. Vamos a usar estos dos objetos para ver cómo funciona la función 'join'. Ejecutamos esta función 'join' sobre el objeto 'x' añadiéndole el objeto 'y' y obtenemos este "output". ¿Qué acabamos de obtener aquí? Acabamos de obtener un objeto nuevo: este objeto de aquí. Tiene tres entradas, una para cada valor que comparten los dos objetos que estábamos juntando. Así pues, aparece el valor 'c', con, primero, el siete, y…

Contenido