serde-白红宇

serde

阅读量：7081 次

发布时间：2019-06-28

本文共 715 字，大约阅读时间需要 2 分钟。

一、背景

1、当进程在进行远程通信时，彼此可以发送各种类型的数据，无论是什么类型的数据都会以二进制序列的形式在网络上传送。

发送方需要把对象转化为字节序列才可在网络上传输，称为对象序列化；

接收方则需要把字节序列恢复为对象，称为对象的反序列化。

2、Hive的反序列化是对key/value反序列化成hive table的每个列的值。

3、Hive可以方便的将数据加载到表中而不需要对数据进行转换，这样在处理海量数据时可以节省大量的时间。

二、技术细节

1、SerDe是Serialize/Deserilize的简称，目的是用于序列化和反序列化。

2、用户在建表时可以用自定义的SerDe或使用Hive自带的SerDe，SerDe能为表指定列，且对列指定相应的数据。

创建指定SerDe表时，使用row format row_format参数

ROW FORMAT SERDE

'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'

WITH SERDEPROPERTIES (

'field.delim'='\u0001',

'serialization.format'='\u0001')

STORED AS INPUTFORMAT

'org.apache.hadoop.mapred.TextInputFormat'

OUTPUTFORMAT

'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat';

转载于:https://www.cnblogs.com/hapyygril/p/10185010.html

你可能感兴趣的文章

[教程]MongoDB 从入门到进阶（aggregation数据库状态）

查看>>

查看linux是ubuntu还是centos

HDOJ 2098 分拆素数和（筛选法求素数）

查看>>

Java Web整合开发(21) -- 宏观把握Hibernate

C#语法-虚方法详解 Virtual 虚函数