Del curso: Python para data science y big data esencial
Accede al curso completo hoy mismo
Únete hoy para acceder a más de 24.600 cursos impartidos por expertos del sector.
Ejemplos básicos de MapReduce en PySpark - Tutorial de Python
Del curso: Python para data science y big data esencial
Ejemplos básicos de MapReduce en PySpark
A continuación, voy a mostrarte un ejemplo de cómo podemos implementar funciones MapReduce con ejemplos un poquito más complejos. Lo que estamos haciendo aquí primero es cargar los paquetes, generar los archivos de configuración y contexto, y vamos a estar trabajando sobre este archivo, que es la entrada de la Wikipedia de Apache Spark. Nuestro objetivo aquí es ver en cuántas líneas de este archivo se habla de Spark, Python o ambos. Como podemos ver con esta instrucción, "Get number of partitions", vemos que solo necesitamos almacenar este objeto en una sola partición. Es un objeto muy pequeño, pero ya nos sirve para ejemplificar los procesos. Una primera aproximación a este tipo de problema la podemos encontrar usando acumuladores. Aquí definimos un acumulador para Python y un acumulador para Spark, y podemos ver que vamos incrementando en función de si encontramos uno u otro en nuestras líneas. Devolvemos 'True' para poder contabilizar en cuántas líneas han aparecido. Si ejecutamos…
Practica mientras aprendes con los archivos de ejercicios.
Descarga los archivos que el instructor utiliza para enseñar el curso. Sigue las instrucciones y aprende viendo, escuchando y practicando.