[Hive de notas personales] El significado de SerDe en Hive

El sitio web oficial presenta serde así: https://cwiki.apache.org/confluence/display/Hive/SerDe :
Descripción general de SerDe
SerDe es la abreviatura de Serializer/Deserializer. Hive usa la interfaz SerDe para IO. La interfaz maneja tanto la serialización como deserialización y también interpretar los resultados de la serialización como campos individuales para el procesamiento.
Un SerDe permite que Hive lea datos de una tabla y los vuelva a escribir en HDFS en cualquier formato personalizado. Cualquiera puede escribir su propio SerDe para sus propios formatos de datos
. :
SerDe es la abreviatura de Serializer/Deserializer. Hive utiliza la interfaz SerDe para IO. La interfaz maneja tanto la serialización como la deserialización e interpreta los resultados serializados como campos separados para su procesamiento.
SerDe permite que Hive lea datos de tablas y los vuelva a escribir en HDFS en cualquier formato personalizado. Cualquiera puede escribir su propio SerDe para su propio formato de datos.

¿Qué es un SerDe?
SerDe es un nombre abreviado para "Serializador y Deserializador”.
Hive usa SerDe (y FileFormat) para leer y escribir filas de tablas. Archivos
HDFS --> InputFileFormat --> <clave, valor> --> Deserializador - -> Objeto de fila Objeto de fila
--> Serializador --> <clave, valor> --> Formato de archivo de salida --> Archivos HDFS ¿
Qué es SerDe?
SerDe es la abreviatura de "Serializador y deserializador".
Hive usa SerDe (y FileFormat) para leer y escribir filas de tablas.
Archivo HDFS——> InputFileFormat——> <clave, valor>——> Deserializer——> objeto de línea Objeto de línea
——> Serializer——> <clave, valor>——> OutputFileFormat——> Archivo HDFS

  • En nuestra declaración habitual de creación de tablas, en realidad tenemos nuestro serde. Algunos muestran directamente qué tipo de serde y otros están abreviados.
  • Por ejemplo:
    STORED AS ORC. De hecho, esta es una abreviatura. Implícitamente esto es un serde. Según el sitio web oficial, lo anterior y lo siguiente tienen el mismo significado.
ROW FORMAT SERDE
  'org.apache.hadoop.hive.ql.io.orc.OrcSerde'
  STORED AS INPUTFORMAT
  'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat'
  OUTPUTFORMAT
  'org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat'

inserte la descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/m0_49303490/article/details/128276089
Recomendado
Clasificación