Del curso: Python para data science y big data esencial

Accede al curso completo hoy mismo

Únete hoy para acceder a más de 24.600 cursos impartidos por expertos del sector.

Ejemplos básicos de MapReduce en PySpark

Ejemplos básicos de MapReduce en PySpark

A continuación, voy a mostrarte un ejemplo de cómo podemos implementar funciones MapReduce con ejemplos un poquito más complejos. Lo que estamos haciendo aquí primero es cargar los paquetes, generar los archivos de configuración y contexto, y vamos a estar trabajando sobre este archivo, que es la entrada de la Wikipedia de Apache Spark. Nuestro objetivo aquí es ver en cuántas líneas de este archivo se habla de Spark, Python o ambos. Como podemos ver con esta instrucción, "Get number of partitions", vemos que solo necesitamos almacenar este objeto en una sola partición. Es un objeto muy pequeño, pero ya nos sirve para ejemplificar los procesos. Una primera aproximación a este tipo de problema la podemos encontrar usando acumuladores. Aquí definimos un acumulador para Python y un acumulador para Spark, y podemos ver que vamos incrementando en función de si encontramos uno u otro en nuestras líneas. Devolvemos 'True' para poder contabilizar en cuántas líneas han aparecido. Si ejecutamos…

Contenido