日期『2020年03月』的博客 - 张杰部落格

最新博客

spark为什么比hadoop要快？摘要: 1、消除了冗余的HDFS读写Hadoop每次shuffle操作后，必须写到磁盘，而Spark在shuffle后不一定落盘，可以cache到内存中，以便迭代时使用。如果操作复杂，很多的shufle操作，那么Hadoop的读写IO时间会大大增加。2、消除了冗余的MapReduce阶段Hadoop的shuffle操... 发表于 2020-03-06 14:52 阅读(1722) 评论(0)

linux下Mysql导出数据到文件的方法摘要: linux下Mysql导出数据到文件的方法 mysql -h host -u user -P port -p -e 'select xxx from xxx where xx = x' > /xxx/xxx/xxx/sss.txt导出到文件，如果有多个字段的话，可以使用concat函数来连接再导出。... 发表于 2020-03-03 15:23 阅读(1715) 评论(0)

Hive通过正则获取匹配的内容摘要: 1、使用举例：regexp_extract(field,'(1[0-9]{10})',0) 获取手机号部分。field字段中含有手机号，'(1[0-9]{10})'是手机号的正则，0表示第一个满足的字符串；2、使用正则作为过滤条件：mobile regexp '^1[0-9]{10}'。... 发表于 2020-03-02 16:31 阅读(2101) 评论(0)

博主信息

仧尐

用专业的技术，做有益的事情

按日志类别

按日志日期

友情链接

Powered by IMZHANGJIE.CN Copyright © 2015-2025 粤ICP备14056181号