最新博客
Hive从Hbase中查询增量数据
摘要: Hive从Hbase中查询增量数据很多人可能不知道Hive怎么映射hbase的timestamp的问题,因为WIKI中有一句LIMITATION:https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration there is current...
发表于 2017-09-15 21:12 阅读(1401) 评论(0)
Current usage: 1.0 GB of 1 GB physical memory used; 2.9 GB of 2.1 GB virtual memory used. Killing container, 虚拟内存都超出预值,被kill.
摘要: Hive Hbase报错信息汇总1.hive sql类报错1.1 问题描述在hive中执行以下SQL报错select count(device_id_md5) from dmp_device_app LATERAL VIEW explode(devices) tb_devices as device_id_m...
发表于 2017-08-31 19:37 阅读(3060) 评论(0)
Hbase数据模型及表结构设计
摘要: 1.Hbae简述HBase是一个开源可伸缩的针对海量数据存储的分布式nosql数据库,它根据Google Bigtable数据模型来建模并构建在hadoop的hdfs存储系统之上。它和关系型数据库Mysql, Oracle等有明显的区别,HBase的数据模型牺牲了关系型数据库的一些特性但是却换来了极大的可伸缩...
发表于 2017-08-28 17:47 阅读(1457) 评论(0)
磁盘告警后Hadoop不再接受任务的解决办法
摘要: 最近有数据节点的磁盘达到了90%的使用率,于是赶紧加了两块新的磁盘,让数据写到新磁盘里面。最近遇到的一个问题是,经常在跑任务的时候,某些任务会卡主,为unaccepted状态,一直不执行,且不报错。解决办法:增加配置: yarn.nodemanager.dis...
发表于 2017-07-11 19:59 阅读(1262) 评论(0)
Hive2Solr组件实现Hive大规模建索引到Solr
摘要: 使用Hive读写solr(一)Hive+Solr简介Hive作为Hadoop生态系统里面离线的数据仓库,可以非常方便的使用SQL的方式来离线分析海量的历史数据,并根据分析的结果,来干一些其他的事情,如报表统计查询等。Solr作为高性能的搜索服务器,能够提供快速,强大的全文检索功能。(二)为什么需要hive集成...
发表于 2017-07-07 20:20 阅读(2042) 评论(0)
Hive报内存不足的异常解决方法 Java heap size
摘要: Hive在运行HQL时上报内存不足错误导致contains被kill掉,mapreduce任务失败。导致这个错误是因为mapreduce配置的内存数量太小了。可以在mapred-site.xml中添加set mapreduce.map.memory.mb=1024; ...
发表于 2017-07-06 14:35 阅读(1535) 评论(0)
Hive列转行后再行专列实现分组后再获取明细
摘要: eg:按照device_id_md5,package_name,adx_id,ad_id分组后,获取device_id_md5,package_name,adx_id,ad_id,req_time五个字段的值select req_time,device_id_md5,package_name,ad_id fr...
发表于 2017-07-05 17:57 阅读(1506) 评论(0)
hdfs增加新盘设置写数据策略
摘要: hadoop加一个参数 dfs.datanode.fsdataset.volume.choosing.policy org.apache.hadoop.hdfs.server.datanode.fsdataset.AvailableSpa...
发表于 2017-07-05 17:53 阅读(1352) 评论(0)
批量处理flume向HDFS写文件时产生未释放租约的异常文件
摘要: # encoding: utf-8'''@function:用于批量处理flume向HDFS写文件时产生未释放租约的异常文件'''import osdef get_unrealease_files(prefix = "/data/logs", tmp_suffix = ".tmp"): ''' @...
发表于 2017-06-28 13:57 阅读(1611) 评论(0)
Cannot obtain block length for LocatedBlock故障分析和解决
摘要: 这几天想cat一下某天的HDFS文件内容的时候突然报Cannot obtain block length for LocatedBlock异常,get也一样,这样无法访问hdfs文件的问题必须解决,Mark一下问题背景和解决过程一.问题背景问题产生的原因可能是由于前几日Hadoop集群维护的时候,基础运维组操...
发表于 2017-06-28 10:02 阅读(1534) 评论(0)
博主信息
仧尐
用专业的技术,做有益的事情
按日志类别
按日志日期
友情链接