张杰部落格
最新博客
  • 大数据 摘要: 1、 NAMENODE职责(1)负责客户端请求的响应(2)元数据的管理(查询,修改)2、元数据的存储机制A、内存中有一份完整的元数据(内存metadata)B、磁盘有一个“准完整”的元数据镜像(fsimage)文件(在namenode的工作目录中)C、用于衔接内存metadata和持久化元数据镜像fsimag...          发表于 2020-06-20 21:12 阅读(41) 评论(0)

  • spark为什么比hadoop要快? 摘要: 1、消除了冗余的HDFS读写Hadoop每次shuffle操作后,必须写到磁盘,而Spark在shuffle后不一定落盘,可以cache到内存中,以便迭代时使用。如果操作复杂,很多的shufle操作,那么Hadoop的读写IO时间会大大增加。2、消除了冗余的MapReduce阶段Hadoop的shuffle操... 发表于 2020-03-06 14:52 阅读(131) 评论(0)

  • Hive通过正则获取匹配的内容 摘要: 1、使用举例:regexp_extract(field,'(1[0-9]{10})',0) 获取手机号部分。field字段中含有手机号,'(1[0-9]{10})'是手机号的正则,0表示第一个满足的字符串;2、使用正则作为过滤条件:mobile regexp '^1[0-9]{10}'。... 发表于 2020-03-02 16:31 阅读(113) 评论(0)

  • Hive shell终端查询条件乱码的问题解决 摘要: 在服务上打开Hive Shell客户端,经常需要输入中文条件,但是每次都遇上输入中文乱码的问题。这个时候我想到了一个办法,那就是将中文URL编码,然后再解码作为查询条件的值。例如:我需要查询公司名称为“饭店”的记录原本查询SQL应该如下:select * from company where company_... 发表于 2020-02-24 16:49 阅读(91) 评论(0)

  • Hive Schema version 1.2.0 does not match metastore's schema version 2.3.0 摘要: 使用pyspark访问hive,出现问题:Hive Schema version 1.2.0 does not match metastore's schema version 2.3.0这是因为spark2.3.1默认支持1.x,所以当升级了hive后,就会报这个错。查了网上有两种解决方案:1、修改数据库配... 发表于 2020-01-15 20:03 阅读(236) 评论(0)

  • xgboost4j spark 打包libxgboost4j.so的命令 摘要: 1、 首先安装gcc 4.9.3安装步骤见:https://imzhangjie.cn/article/171.html 2、然后到达xgboost的源码目录执行:make config=make/config.mk3、最后编译libxgboost4j.so#在jvm-packages目录下创建lib目录mk... 发表于 2020-01-07 20:26 阅读(190) 评论(0)

  • 编译 xgboost 不编译 xgboost4j 下的JNI库libxgboost4j.so的问题解决 摘要: cmake 3.14.6gcc 4.8.5xgboost 0.72今天照着官网编译xgboost的源码,发现一个问题,xgboost4j下的native包没有编译。git clone --recursive https://github.com/dmlc/xgboostcd xgboostmkdir bui... 发表于 2020-01-03 19:44 阅读(201) 评论(0)

  • 重新设置hdfs某个路径下的备份数量 摘要: 有时候,我们为了节省集群的存储空间,需要减少hdfs的备份次数。这时候需要用到一个命令。例如:我需要将hdfs目录/data下的文件的备份改为2份hdfs dfs -setrep 2 -R -w /data/即可。... 发表于 2019-12-31 18:20 阅读(217) 评论(0)

  • xgboost on spark 参数useExternalMemory=true引发的血案 摘要: 最近开始使用xgboost on spark跑模型,当准备设置useExternalMemory这个参数时,大致意思是是否使用额外的内存,于是果断设置了true。 但当我在spark集群中提交任务时,跑了很多次,都报/tmp目录存储不够,任务失败。每次跑失败,各种磁盘告警,/tmp目录其实也... 发表于 2019-12-26 18:12 阅读(196) 评论(0)

  • xgboost on spark 稀疏向量的缺失值问题解决办法 摘要: 最近在使用xgboost on spark过程中发现一个问题,发现对于标签型的稀疏变量(即有值就为1),得到的树节点如下:0:[tag1<2.00000095] yes=1,no=2,missing=2既然为1和0,为什么条件会是小于2呢?这样不是会导致所有值都满足条件吗?于是,带着这个问题,查找了相关的资料... 发表于 2019-12-23 16:40 阅读(307) 评论(0)

Powered by IMZHANGJIE.CN Copyright © 2015-2020 粤ICP备14056181号