最新博客
机器学习算法之聚类算法Kmeans并找出最佳K值的Python实践
摘要: Kmeans聚类算法的大概流程是:①从样本中随机找出K个样本作为中心点;②求所有样本到这些样本的距离,按照最短的进行归类; ③求每个聚类中的样本的元素的平均值,作为新的中心点; ④继续②,③,知道所有样本再也无法找到新的聚类,就算完成。一、接下来使用Numpy实现python代码,测试有效并且带注释:Kmea...
发表于 2017-12-13 18:14 阅读(1679) 评论(0)
Spark Standalone Cluster模式安装和配置及高可用
摘要: 1、手动启动一个spark集群启动standalone的master节点./sbin/start-master.sh一旦启动后,master会打印一个spark的地址,例如:spark://HOST:PORT。这个地址可以作为SparkContext的master参数。你可以访问http://HOST:808...
发表于 2017-12-06 16:21 阅读(1600) 评论(0)
Java,Python,Scala三种语言开发并部署Spark的WordCount程序
摘要: 一、Java开发并部署Spark的wordcountJava实现WordCount程序:package com.spark.wordcount;import java.util.Arrays;import java.util.Iterator;import java.util.Map;import org.a...
发表于 2017-11-29 19:52 阅读(1599) 评论(0)
JAVAEE进阶大数据之路:从搜索引擎实战到大数据学习
摘要: 做JAVAEE,如何进阶大数据呢?仅仅看视频学习,而没有机会实践,学了感觉好像没学一样。是否可以自己实现一个大数据项目增加自己的实践经验?如果还能对外发布,那就更有成就感了。做过Java的可以全栈实现一个项目,弄懂每一个细节,还能增加成就感。1、如何实现一个垂直爬虫和搜索引擎?1.1爬虫实现①实现逻辑②网址队...
发表于 2017-11-22 15:13 阅读(1512) 评论(0)
hive jdbc调用hbase的映射表未设置zk的问题
摘要: 问题发现:hbase的映射到hive的表直接在安装了hive的命令中执行没有问题,但是通过hive的jdbc调用发现无法正常运行。集群机器为:master1,master2,dmp3,dmp4,dmp5,dmp6。zk安装在master1,master2,dmp3上。后查看任务调用情况有一部分containe...
发表于 2017-10-19 15:51 阅读(1380) 评论(0)
强制Hive走MR避免查询Hbase走LocalTask
摘要: 最近使用hive带条件去查询hbase,count(1)只需要花费时间400秒,而查询其中的一个字段却花费3个多小时。原因是因为hive去查询hbase的数据没有走MR,而是交给了某一个节点走localtask。可以设置如下参数:set hive.fetch.task.conversion=minimal;强...
发表于 2017-09-19 15:25 阅读(1615) 评论(0)
java调用jar包中某个类的main方法
摘要: java -classpath dmp_logic.jar com.paic.dmp.common.util.SsdbFactory 'get' 'u:9d9cbd16a39c55bfc6a3724f1b64dd7c'...
发表于 2017-09-15 21:14 阅读(1874) 评论(0)
Hive从Hbase中查询增量数据
摘要: Hive从Hbase中查询增量数据很多人可能不知道Hive怎么映射hbase的timestamp的问题,因为WIKI中有一句LIMITATION:https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration there is current...
发表于 2017-09-15 21:12 阅读(1401) 评论(0)
Current usage: 1.0 GB of 1 GB physical memory used; 2.9 GB of 2.1 GB virtual memory used. Killing container, 虚拟内存都超出预值,被kill.
摘要: Hive Hbase报错信息汇总1.hive sql类报错1.1 问题描述在hive中执行以下SQL报错select count(device_id_md5) from dmp_device_app LATERAL VIEW explode(devices) tb_devices as device_id_m...
发表于 2017-08-31 19:37 阅读(3060) 评论(0)
Hbase数据模型及表结构设计
摘要: 1.Hbae简述HBase是一个开源可伸缩的针对海量数据存储的分布式nosql数据库,它根据Google Bigtable数据模型来建模并构建在hadoop的hdfs存储系统之上。它和关系型数据库Mysql, Oracle等有明显的区别,HBase的数据模型牺牲了关系型数据库的一些特性但是却换来了极大的可伸缩...
发表于 2017-08-28 17:47 阅读(1457) 评论(0)
博主信息
仧尐
用专业的技术,做有益的事情
按日志类别
按日志日期
友情链接