Del curso: Python para data science y big data esencial

Accede al curso completo hoy mismo

Únete hoy para acceder a más de 24.600 cursos impartidos por expertos del sector.

Qué son los RDD (Resilient Distributed Databases)

Qué son los RDD (Resilient Distributed Databases) - Tutorial de Python

Del curso: Python para data science y big data esencial

Qué son los RDD (Resilient Distributed Databases)

A continuación voy a ofrecer una descripción detallada, aunque aun así introductoria, de qué son los RDD –del inglés "resilient distributed datasets"–, cuáles son sus particularidades y en qué benefician al funcionamiento eficiente de Spark a la hora de procesar grandes volúmenes de datos. Esta es una aproximación 100 % teórica y sin código, así que aviso que puede resultar un poco densa. Una de las principales motivaciones de la creación de Spark era resolver mejor las situaciones donde el uso de la versión original del MapReduce no era eficiente por el elevado coste computacional de leer y escribir repetidamente en el disco duro. La solución principal de este problema fue el uso más constante e inteligente de la memoria principal del ordenador, de manera que el acceso a los datos es muchísimo más rápido y se evitan las constantes lecturas y escrituras en memoria. A esta nueva estructura de datos se le llama, como puedes imaginarte, "resilient distributed dataset", RDD, que puede…

Contenido