¿Qué es reducir por clave?
¿Qué es reducir por clave?

Video: ¿Qué es reducir por clave?

Video: ¿Qué es reducir por clave?
Video: 🔵 Suplementos clave para AUMENTAR la ENERGIA Y reducir la FATIGA CRÓNICA 2024, Noviembre
Anonim

La función Spark RDD reduceByKey fusiona los valores de cada llave usando un asociativo reducir función. Eso significa intuitivamente que esta función produce el mismo resultado cuando se aplica repetidamente en el mismo conjunto de datos RDD con múltiples particiones independientemente del orden del elemento.

Entonces, ¿cuál es la diferencia entre groupByKey y reduceByKey?

groupByKey () es solo para agrupar su conjunto de datos en función de una clave. reduceByKey () es algo así como agrupación + agregación. reduceByKey se puede utilizar cuando ejecutamos un gran conjunto de datos. aggregateByKey () es lógicamente igual que reduceByKey () pero te permite devolver el resultado en diferente escribe.

También sepa, ¿por qué reducir la acción en chispa? Reducir la chispa la operación es una acción tipo de operación y desencadena una ejecución DAG completa para todas las instrucciones perezosas alineadas. Chispa - chispear RDD reducir La función reduce los elementos de este RDD utilizando el operador binario conmutativo y asociativo especificado. Reducir la chispa la operación es casi similar a reducir método en Scala.

Además de arriba, ¿qué es Pairrdd?

Spark proporciona operaciones especiales en RDD que contienen pares clave / valor. Estos RDD se denominan RDD de par. Los RDD de par son un bloque de construcción útil en muchos programas, ya que exponen operaciones que le permiten actuar en cada clave en paralelo o reagrupar datos a través de la red. ParRDD son pares CLAVE / VALOR.

¿Es reduceByKey una acción?

reduce () genera una colección que no se agrega al gráfico acíclico dirigido (DAG), por lo que se implementa como un acción . Sin embargo, reduceByKey () devuelve un RDD que es solo otro nivel / estado en el DAG, por lo tanto, es una transformación.

Recomendado: