张杰部落格
最新博客
  • 查询hbase映射到Hive表的诡异问题及总结 摘要: hive中dmp_device_info为映射到hbase中的dmp:device_info表,表结构如下:CREATE EXTERNAL TABLE if not exists dmp_device_info( device_id_md5 string, device_ty... 发表于 2017-12-27 14:12 阅读(705) 评论(0)

  • 机器学习算法之聚类算法Kmeans并找出最佳K值的Python实践 摘要: Kmeans聚类算法的大概流程是:①从样本中随机找出K个样本作为中心点;②求所有样本到这些样本的距离,按照最短的进行归类; ③求每个聚类中的样本的元素的平均值,作为新的中心点; ④继续②,③,知道所有样本再也无法找到新的聚类,就算完成。一、接下来使用Numpy实现python代码,测试有效并且带注释:Kmea... 发表于 2017-12-13 18:14 阅读(507) 评论(0)

  • Spark Standalone Cluster模式安装和配置及高可用 摘要: 1、手动启动一个spark集群启动standalone的master节点./sbin/start-master.sh一旦启动后,master会打印一个spark的地址,例如:spark://HOST:PORT。这个地址可以作为SparkContext的master参数。你可以访问http://HOST:808... 发表于 2017-12-06 16:21 阅读(468) 评论(0)

Powered by IMZHANGJIE.CN Copyright © 2015-2020 粤ICP备14056181号