最新博客
  • xgboost on spark 参数useExternalMemory=true引发的血案 摘要: 最近开始使用xgboost on spark跑模型,当准备设置useExternalMemory这个参数时,大致意思是是否使用额外的内存,于是果断设置了true。 但当我在spark集群中提交任务时,跑了很多次,都报/tmp目录存储不够,任务失败。每次跑失败,各种磁盘告警,/tmp目录其实也... 发表于 2019-12-26 18:12 阅读(1609) 评论(0)

  • xgboost on spark 稀疏向量的缺失值问题解决办法 摘要: 最近在使用xgboost on spark过程中发现一个问题,发现对于标签型的稀疏变量(即有值就为1),得到的树节点如下:0:[tag1<2.00000095] yes=1,no=2,missing=2既然为1和0,为什么条件会是小于2呢?这样不是会导致所有值都满足条件吗?于是,带着这个问题,查找了相关的资料... 发表于 2019-12-23 16:40 阅读(2030) 评论(0)

  • spark-sql读取映射hbase数据的hive外部表需要的jar包 摘要: 之前在业务处理中建立的一个hive映射hbase数据的外部表,通过hive查询成功,但是通过spark-sql去查询报了缺包异常。解决方式前提是你已经可以通过spark-sql读取hive的数据了。 解决方式非常简单。1.拷贝如下jar包到${spark_home}/jars(spark2.0之前是${spa... 发表于 2018-01-19 16:39 阅读(2016) 评论(0)

  • 查询hbase映射到Hive表的诡异问题及总结 摘要: hive中dmp_device_info为映射到hbase中的dmp:device_info表,表结构如下:CREATE EXTERNAL TABLE if not exists dmp_device_info( device_id_md5 string, device_ty... 发表于 2017-12-27 14:12 阅读(2338) 评论(0)

  • 机器学习算法之聚类算法Kmeans并找出最佳K值的Python实践 摘要: Kmeans聚类算法的大概流程是:①从样本中随机找出K个样本作为中心点;②求所有样本到这些样本的距离,按照最短的进行归类; ③求每个聚类中的样本的元素的平均值,作为新的中心点; ④继续②,③,知道所有样本再也无法找到新的聚类,就算完成。一、接下来使用Numpy实现python代码,测试有效并且带注释:Kmea... 发表于 2017-12-13 18:14 阅读(1679) 评论(0)

  • Spark Standalone Cluster模式安装和配置及高可用 摘要: 1、手动启动一个spark集群启动standalone的master节点./sbin/start-master.sh一旦启动后,master会打印一个spark的地址,例如:spark://HOST:PORT。这个地址可以作为SparkContext的master参数。你可以访问http://HOST:808... 发表于 2017-12-06 16:21 阅读(1601) 评论(0)

  • Java,Python,Scala三种语言开发并部署Spark的WordCount程序 摘要: 一、Java开发并部署Spark的wordcountJava实现WordCount程序:package com.spark.wordcount;import java.util.Arrays;import java.util.Iterator;import java.util.Map;import org.a... 发表于 2017-11-29 19:52 阅读(1599) 评论(0)

  • JAVAEE进阶大数据之路:从搜索引擎实战到大数据学习 摘要: 做JAVAEE,如何进阶大数据呢?仅仅看视频学习,而没有机会实践,学了感觉好像没学一样。是否可以自己实现一个大数据项目增加自己的实践经验?如果还能对外发布,那就更有成就感了。做过Java的可以全栈实现一个项目,弄懂每一个细节,还能增加成就感。1、如何实现一个垂直爬虫和搜索引擎?1.1爬虫实现①实现逻辑②网址队... 发表于 2017-11-22 15:13 阅读(1512) 评论(0)

  • hive jdbc调用hbase的映射表未设置zk的问题 摘要: 问题发现:hbase的映射到hive的表直接在安装了hive的命令中执行没有问题,但是通过hive的jdbc调用发现无法正常运行。集群机器为:master1,master2,dmp3,dmp4,dmp5,dmp6。zk安装在master1,master2,dmp3上。后查看任务调用情况有一部分containe... 发表于 2017-10-19 15:51 阅读(1380) 评论(0)

  • 强制Hive走MR避免查询Hbase走LocalTask 摘要: 最近使用hive带条件去查询hbase,count(1)只需要花费时间400秒,而查询其中的一个字段却花费3个多小时。原因是因为hive去查询hbase的数据没有走MR,而是交给了某一个节点走localtask。可以设置如下参数:set hive.fetch.task.conversion=minimal;强... 发表于 2017-09-19 15:25 阅读(1615) 评论(0)

Powered by IMZHANGJIE.CN Copyright © 2015-2025 粤ICP备14056181号