Ejemplos básicos de MapReduce en PySpark - Tutorial de Python

Del curso: Python para data science y big data esencial

Comenzar mi mes de prueba gratis Comprar para mi equipo

Ejemplos básicos de MapReduce en PySpark

“

A continuación, voy a mostrarte un ejemplo de cómo podemos implementar funciones MapReduce con ejemplos un poquito más complejos. Lo que estamos haciendo aquí primero es cargar los paquetes, generar los archivos de configuración y contexto, y vamos a estar trabajando sobre este archivo, que es la entrada de la Wikipedia de Apache Spark. Nuestro objetivo aquí es ver en cuántas líneas de este archivo se habla de Spark, Python o ambos. Como podemos ver con esta instrucción, "Get number of partitions", vemos que solo necesitamos almacenar este objeto en una sola partición. Es un objeto muy pequeño, pero ya nos sirve para ejemplificar los procesos. Una primera aproximación a este tipo de problema la podemos encontrar usando acumuladores. Aquí definimos un acumulador para Python y un acumulador para Spark, y podemos ver que vamos incrementando en función de si encontramos uno u otro en nuestras líneas. Devolvemos 'True' para poder contabilizar en cuántas líneas han aparecido. Si ejecutamos…

Accede al curso completo hoy mismo

Únete hoy para acceder a más de 24.600 cursos impartidos por expertos del sector.

Ejemplos básicos de MapReduce en PySpark - Tutorial de Python

Del curso: Python para data science y big data esencial

Ejemplos básicos de MapReduce en PySpark

Practica mientras aprendes con los archivos de ejercicios.

Descarga cursos y fórmate estés donde estés

Contenido

Descubre temas de negocios

Descubre temas de creatividad

Descubre temas de tecnología