Tabla de contenido:

¿Cuáles son los diferentes formatos de archivo en Hadoop?
¿Cuáles son los diferentes formatos de archivo en Hadoop?

Video: ¿Cuáles son los diferentes formatos de archivo en Hadoop?

Video: ¿Cuáles son los diferentes formatos de archivo en Hadoop?
Video: Introducción a HDFS 2024, Mayo
Anonim

Afortunadamente para usted, la comunidad de big data básicamente se ha basado en tres formatos de archivo para usar en Hadoop grupos: Optimized Row Columnar (ORC), Avro y Parquet.

Posteriormente, también cabe preguntarse, ¿cuáles son los diferentes tipos de formatos de datos?

Hay tres tipos de datos mapeo y SIG formatos de datos . Cada escribe se maneja de manera diferente.

Tipos de formato de datos

  • Basado en archivos: archivos Shapefiles, archivos de diseño de Microstation (DGN), imágenes GeoTIFF.
  • Basado en directorio: Coberturas ESRI ArcInfo, Censo TIGER de EE. UU.
  • Conexiones de base de datos: PostGIS, ESRI ArcSDE, MySQL.

Además, ¿qué formato de archivo es mejor en Hive? RCFile es una fila de columnas formato de archivo . Esta es otra forma de Formato de archivo de Hive que ofrece altas tasas de compresión a nivel de fila. Si tiene el requisito de realizar varias filas a la vez, puede usar RCFile formato.

Teniendo esto en cuenta, ¿cuáles son los formatos de entrada comunes en Hadoop?

InputFormat crea Inputsplit

  • InputFormat más común son:
  • FileInputFormat: es la clase base para todos los formatos de entrada basados en archivos.
  • TextInputFormat: es el InputFormat predeterminado deMapReduce.
  • KeyValueTextInputFormat: es similar a TextInputFormat.
  • Siga el enlace para obtener más información sobre InputFormat en Hadoop.

¿Qué es el formato de archivo orc en Hadoop?

Formato de archivo ORC La columna de fila optimizada ( ORC ) formato de archivo proporciona una forma muy eficaz de almacenar datos de Hive. Fue diseñado para superar las limitaciones de la otra colmena. formatos de archivo . Utilizando Archivos ORC mejora el rendimiento cuando Hive está leyendo, escribiendo y procesando datos.

Recomendado: