¿Qué es RDD en Scala?
¿Qué es RDD en Scala?

Video: ¿Qué es RDD en Scala?

Video: ¿Qué es RDD en Scala?
Video: QUÉ SON LOS RDD 2024, Mayo
Anonim

Conjuntos de datos distribuidos resistentes ( RDD ) es una estructura de datos fundamental de Spark. Es una colección distribuida inmutable de objetos. RDD puede contener cualquier tipo de Python, Java o Scala objetos, incluidas las clases definidas por el usuario. Formalmente, un RDD es una colección de registros particionada de solo lectura.

También la pregunta es, ¿cuál es la diferencia entre RDD y DataFrame?

RDD – RDD es una colección distribuida de elementos de datos repartidos en muchas máquinas en el grupo. RDD son un conjunto de objetos Java o Scala que representan datos. Marco de datos - A Marco de datos es una colección distribuida de datos organizados en columnas con nombre. Es conceptualmente igual a una mesa. en un base de datos relacional.

Además, ¿cómo se distribuye RDD? Elástico Repartido Conjuntos de datos ( RDD ) Son un repartido colección de objetos, que se almacenan en memoria o en discos de diferentes máquinas de un clúster. Un solo RDD se puede dividir en varias particiones lógicas para que estas particiones se puedan almacenar y procesar en diferentes máquinas de un clúster.

¿Cómo funciona Spark RDD?

RDD en Chispa - chispear tener una colección de registros que contengan particiones. RDD en Chispa - chispear se dividen en pequeños fragmentos lógicos de datos, conocidos como particiones, cuando se ejecuta una acción, se inicia una tarea por partición. Particiones en RDD son las unidades básicas del paralelismo.

¿Cuál es RDD o DataFrame más rápido?

RDD - Mientras realiza operaciones simples de agrupación y agregación RDD La API es más lenta. Marco de datos - Al realizar análisis exploratorios, crear estadísticas agregadas sobre datos, marcos de datos están más rápido . RDD - Cuando desee acciones y transformaciones de bajo nivel, utilizamos RDD . Además, cuando necesitamos abstracciones de alto nivel, usamos RDD.

Recomendado: