Del curso: Python para data science y big data esencial
Accede al curso completo hoy mismo
Únete hoy para acceder a más de 24.600 cursos impartidos por expertos del sector.
Qué son los RDD (Resilient Distributed Databases) - Tutorial de Python
Del curso: Python para data science y big data esencial
Qué son los RDD (Resilient Distributed Databases)
A continuación voy a ofrecer una descripción detallada, aunque aun así introductoria, de qué son los RDD –del inglés "resilient distributed datasets"–, cuáles son sus particularidades y en qué benefician al funcionamiento eficiente de Spark a la hora de procesar grandes volúmenes de datos. Esta es una aproximación 100 % teórica y sin código, así que aviso que puede resultar un poco densa. Una de las principales motivaciones de la creación de Spark era resolver mejor las situaciones donde el uso de la versión original del MapReduce no era eficiente por el elevado coste computacional de leer y escribir repetidamente en el disco duro. La solución principal de este problema fue el uso más constante e inteligente de la memoria principal del ordenador, de manera que el acceso a los datos es muchísimo más rápido y se evitan las constantes lecturas y escrituras en memoria. A esta nueva estructura de datos se le llama, como puedes imaginarte, "resilient distributed dataset", RDD, que puede…
Practica mientras aprendes con los archivos de ejercicios.
Descarga los archivos que el instructor utiliza para enseñar el curso. Sigue las instrucciones y aprende viendo, escuchando y practicando.
Contenido
-
-
-
-
-
-
-
-
-
Introducción a PySpark8 min 21 s
-
(Bloqueado)
Sintaxis en PySpark. Qué necesitamos saber4 min 1 s
-
(Bloqueado)
Qué son los RDD (Resilient Distributed Databases)4 min 27 s
-
(Bloqueado)
Funciones lambda5 min 11 s
-
(Bloqueado)
Dataframes en PySpark8 min 43 s
-
(Bloqueado)
Transformaciones básicas en PySpark5 min 16 s
-
(Bloqueado)
Acciones básicas en PySpark3 min 13 s
-
(Bloqueado)
Operaciones numéricas con RDD3 min 43 s
-
-
-