张杰部落格
最新博客
  • spark为什么比hadoop要快? 摘要: 1、消除了冗余的HDFS读写Hadoop每次shuffle操作后,必须写到磁盘,而Spark在shuffle后不一定落盘,可以cache到内存中,以便迭代时使用。如果操作复杂,很多的shufle操作,那么Hadoop的读写IO时间会大大增加。2、消除了冗余的MapReduce阶段Hadoop的shuffle操... 发表于 2020-03-06 14:52 阅读(131) 评论(0)

  • linux下Mysql导出数据到文件的方法 摘要: linux下Mysql导出数据到文件的方法 mysql -h host -u user -P port -p -e 'select xxx from xxx where xx = x' > /xxx/xxx/xxx/sss.txt导出到文件,如果有多个字段的话,可以使用concat函数来连接再导出。... 发表于 2020-03-03 15:23 阅读(107) 评论(0)

  • Hive通过正则获取匹配的内容 摘要: 1、使用举例:regexp_extract(field,'(1[0-9]{10})',0) 获取手机号部分。field字段中含有手机号,'(1[0-9]{10})'是手机号的正则,0表示第一个满足的字符串;2、使用正则作为过滤条件:mobile regexp '^1[0-9]{10}'。... 发表于 2020-03-02 16:31 阅读(114) 评论(0)

Powered by IMZHANGJIE.CN Copyright © 2015-2020 粤ICP备14056181号