博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
serde
阅读量:7081 次
发布时间:2019-06-28

本文共 715 字,大约阅读时间需要 2 分钟。

一、背景

1、当进程在进行远程通信时,彼此可以发送各种类型的数据,无论是什么类型的数据都会以二进制序列的形式在网络上传送。

     发送方需要把对象转化为字节序列才可在网络上传输,称为对象序列化;

     接收方则需要把字节序列恢复为对象,称为对象的反序列化。

2、Hive的反序列化是对key/value反序列化成hive table的每个列的值。

3、Hive可以方便的将数据加载到表中而不需要对数据进行转换,这样在处理海量数据时可以节省大量的时间。

二、技术细节

1、SerDe是Serialize/Deserilize的简称,目的是用于序列化和反序列化。

2、用户在建表时可以用自定义的SerDe或使用Hive自带的SerDe,SerDe能为表指定列,且对列指定相应的数据。

    创建指定SerDe表时,使用row format row_format参数

 

    ROW FORMAT SERDE

    'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
    WITH SERDEPROPERTIES (
   'field.delim'='\u0001',
   'serialization.format'='\u0001')
   STORED AS INPUTFORMAT
  'org.apache.hadoop.mapred.TextInputFormat'
  OUTPUTFORMAT
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat';

 

转载于:https://www.cnblogs.com/hapyygril/p/10185010.html

你可能感兴趣的文章
[教程]MongoDB 从入门到进阶 (aggregation数据库状态)
查看>>
查看linux是ubuntu还是centos
查看>>
H5——表单验证新特性,注册模态框!
查看>>
sintimental analysis
查看>>
Java并发包--线程池原理
查看>>
获取网页数据的例子
查看>>
洛谷P3265 装备购买
查看>>
Database | SQL
查看>>
struts2的配置文件
查看>>
匆匆三月,归来已非少年
查看>>
php加载mysql
查看>>
HDOJ 2098 分拆素数和(筛选法求素数)
查看>>
Java Web整合开发(21) -- 宏观把握Hibernate
查看>>
JSP第5次测试---测试分析
查看>>
泛型介绍
查看>>
单例设计模式(这一篇足够了)
查看>>
C#语法-虚方法详解 Virtual 虚函数
查看>>
UIPickerView 的 多重选择
查看>>
浅谈个人对类的理解
查看>>
tomcat容器
查看>>