张杰部落格
博客信息

Hbase开启GZIP压缩

发布时间:『 2020-08-29 11:09』  博客类别:Hadoop/Spark  阅读(29) 评论(0)

由于本人在阿里云存储的是一些文章,文章的访问频次一般,所以平时使用CPU的时间不算密集,且对于在阿里云上使用nas来说,存储越小花费就越小,所以就准备开启GZIP压缩。另外也是因为当时搭建hadoop集群的时候没有snappy的编译库。

以下是Google几年前发布的一组测试数据(数据有些老了,有人近期做过测试的话希望能共享出来):

Algorithm% remainingEncodingDecoding
GZIP13.4%21 MB/s118 MB/s
LZO20.5%135 MB/s410 MB/s
Zippy/Snappy22.2%172 MB/s409 MB/s

 

 

 

 



注:来自《HBase: The Definitive Guide》

其中:

1)GZIP的压缩率最高,但是其实CPU密集型的,对CPU的消耗比其他算法要多,压缩和解压速度也慢;

2)LZO的压缩率居中,比GZIP要低一些,但是压缩和解压速度明显要比GZIP快很多,其中解压速度快的更多;

3)Zippy/Snappy的压缩率最低,而压缩和解压速度要稍微比LZO要快一些。


实际效果:

原来未开启GZIP压缩前是73.2G =>开启GZIP压缩后是40G。压缩率54%。可以了节省了一半的空间。

关键字:   无
评论信息
暂无评论
发表评论
验证码: 
Powered by IMZHANGJIE.CN Copyright © 2015-2020 粤ICP备14056181号