¿Cuál es el problema con los archivos pequeños en Hadoop?
¿Cuál es el problema con los archivos pequeños en Hadoop?

Video: ¿Cuál es el problema con los archivos pequeños en Hadoop?

Video: ¿Cuál es el problema con los archivos pequeños en Hadoop?
Video: Solution for Small File Issue | Hadoop Interview questions 2024, Mayo
Anonim

1) Problema de archivo pequeño en HDFS : Almacenar gran cantidad de archivos pequeños que son extremadamente menor que el tamaño del bloque no puede ser manejado eficientemente por HDFS . Leyendo archivos pequeños implican muchas búsquedas y muchos saltos entre un nodo de datos y otro, lo que a su vez es un procesamiento de datos ineficaz.

Además de esto, ¿qué archivos tratan con problemas de archivos pequeños en Hadoop?

1) HAR ( Hadoop Archivo) Archivos ha sido introducido a tratar con problemas de archivos pequeños . HAR ha introducido una capa encima de HDFS , que proporcionan una interfaz para expediente accediendo. Utilizando Hadoop comando de archivo, HAR archivos se crean, que ejecuta un Mapa reducido trabajo para empacar el archivos siendo archivado en menor número de Archivos HDFS.

Además, ¿puedo tener varios archivos en HDFS con diferentes tamaños de bloque? Defecto Talla de cuadra es de 64 MB. usted pueden cámbielo según sus necesidades. Llegando a tu pregunta si tu puede crear varios archivos variando tamaños de bloque pero en tiempo real esto voluntad no favorecer la producción.

Además, ¿por qué HDFS no maneja archivos pequeños de manera óptima?

Problemas con archivos pequeños y HDFS Cada expediente , directorio y bloque en HDFS es representado como un objeto en la memoria del nodo de nombre, cada uno de los cuales ocupa 150 bytes, como regla general. Es más, HDFS no es preparado para acceder de manera eficiente archivos pequeños : eso es diseñado principalmente para el acceso de transmisión de grandes archivos.

¿Por qué Hadoop es lento?

Lento Velocidad de procesamiento La búsqueda de este disco lleva tiempo, lo que hace que todo el proceso sea muy lento . Si Hadoop procesa datos en pequeño volumen, es muy lento relativamente. Es ideal para grandes conjuntos de datos. Como Hadoop tiene un motor de procesamiento por lotes en el núcleo, su velocidad para el procesamiento en tiempo real es menor.

Recomendado: