Hadoop/Spark - 张杰部落格

最新博客

xgboost on spark 参数useExternalMemory=true引发的血案摘要: 最近开始使用xgboost on spark跑模型，当准备设置useExternalMemory这个参数时，大致意思是是否使用额外的内存，于是果断设置了true。但当我在spark集群中提交任务时，跑了很多次，都报/tmp目录存储不够，任务失败。每次跑失败，各种磁盘告警，/tmp目录其实也... 发表于 2019-12-26 18:12 阅读(1658) 评论(0)

xgboost on spark 稀疏向量的缺失值问题解决办法摘要: 最近在使用xgboost on spark过程中发现一个问题，发现对于标签型的稀疏变量（即有值就为1），得到的树节点如下：0:[tag1<2.00000095] yes=1,no=2,missing=2既然为1和0，为什么条件会是小于2呢？这样不是会导致所有值都满足条件吗？于是，带着这个问题，查找了相关的资料... 发表于 2019-12-23 16:40 阅读(2086) 评论(0)

spark-sql读取映射hbase数据的hive外部表需要的jar包摘要: 之前在业务处理中建立的一个hive映射hbase数据的外部表，通过hive查询成功，但是通过spark-sql去查询报了缺包异常。解决方式前提是你已经可以通过spark-sql读取hive的数据了。解决方式非常简单。1.拷贝如下jar包到${spark_home}/jars（spark2.0之前是${spa... 发表于 2018-01-19 16:39 阅读(2076) 评论(0)

查询hbase映射到Hive表的诡异问题及总结摘要: hive中dmp_device_info为映射到hbase中的dmp:device_info表，表结构如下：CREATE EXTERNAL TABLE if not exists dmp_device_info( device_id_md5 string, device_ty... 发表于 2017-12-27 14:12 阅读(2374) 评论(0)

机器学习算法之聚类算法Kmeans并找出最佳K值的Python实践摘要: Kmeans聚类算法的大概流程是：①从样本中随机找出K个样本作为中心点；②求所有样本到这些样本的距离，按照最短的进行归类； ③求每个聚类中的样本的元素的平均值，作为新的中心点； ④继续②，③，知道所有样本再也无法找到新的聚类，就算完成。一、接下来使用Numpy实现python代码，测试有效并且带注释：Kmea... 发表于 2017-12-13 18:14 阅读(1705) 评论(0)

Spark Standalone Cluster模式安装和配置及高可用摘要: 1、手动启动一个spark集群启动standalone的master节点./sbin/start-master.sh一旦启动后，master会打印一个spark的地址，例如：spark://HOST:PORT。这个地址可以作为SparkContext的master参数。你可以访问http://HOST:808... 发表于 2017-12-06 16:21 阅读(1645) 评论(0)

Java，Python，Scala三种语言开发并部署Spark的WordCount程序摘要: 一、Java开发并部署Spark的wordcountJava实现WordCount程序：package com.spark.wordcount;import java.util.Arrays;import java.util.Iterator;import java.util.Map;import org.a... 发表于 2017-11-29 19:52 阅读(1631) 评论(0)

JAVAEE进阶大数据之路：从搜索引擎实战到大数据学习摘要: 做JAVAEE，如何进阶大数据呢？仅仅看视频学习，而没有机会实践，学了感觉好像没学一样。是否可以自己实现一个大数据项目增加自己的实践经验？如果还能对外发布，那就更有成就感了。做过Java的可以全栈实现一个项目，弄懂每一个细节，还能增加成就感。1、如何实现一个垂直爬虫和搜索引擎？1.1爬虫实现①实现逻辑②网址队... 发表于 2017-11-22 15:13 阅读(1545) 评论(0)

hive jdbc调用hbase的映射表未设置zk的问题摘要: 问题发现：hbase的映射到hive的表直接在安装了hive的命令中执行没有问题，但是通过hive的jdbc调用发现无法正常运行。集群机器为：master1,master2,dmp3,dmp4,dmp5,dmp6。zk安装在master1,master2,dmp3上。后查看任务调用情况有一部分containe... 发表于 2017-10-19 15:51 阅读(1425) 评论(0)

强制Hive走MR避免查询Hbase走LocalTask 摘要: 最近使用hive带条件去查询hbase，count(1)只需要花费时间400秒，而查询其中的一个字段却花费3个多小时。原因是因为hive去查询hbase的数据没有走MR，而是交给了某一个节点走localtask。可以设置如下参数：set hive.fetch.task.conversion=minimal;强... 发表于 2017-09-19 15:25 阅读(1654) 评论(0)

博主信息

仧尐

用专业的技术，做有益的事情

按日志类别

按日志日期

友情链接

Powered by IMZHANGJIE.CN Copyright © 2015-2025 粤ICP备14056181号