博客信息

使用Python爬取应用市场网页并存入到数据库

发布时间:『 2017-05-02 19:13』  博客类别:Hadoop/Spark  阅读(1317) 评论(0)

第一步:安装MySQL-python-1.2.5

下载MySQL-python-1.2.5.zip 文件之后直接解压。进入MySQL-python-1.2.5目录:

执行:python setup.py install

下载地址:https://pypi.python.org/pypi/MySQL-python/

第二步:编写python脚本实现

#!/usr/bin/python
# - *- coding:UTF-8 -*-
import MySQLdb,urllib,re;
conn = MySQLdb.connect(host="localhost",port = 3328,user="test",passwd="test",db="test");
cursor = conn.cursor();
data = cursor.execute("select package_name,device_source from t_app_info");
appinfos = cursor.fetchmany(data);
for appinfo in appinfos:
    page = urllib.urlopen('http://sj.qq.com/myapp/detail.htm?apkName='+appinfo[0]);
    html = page.read();
    m = re.search(r'<div class="det-name-int">(.*?)</div>',html);
    packageNameCn = None;
    if m is not None:
       packageNameCn = m.group(1).strip();
       if packageNameCn :
          print packageNameCn.split(' ')[0]+"-安卓";
    if packageNameCn is not None:
        page = urllib.urlopen('http://itunes.apple.com/lookup?id='+appinfo[0]);
        html = page.read();
        m = re.search(r'"trackCensoredName":"(.*?)"</div>"',html);
        if m is not None:
           packageNameCn = m.group(1).strip();
           if packageNameCn :
              packageNameCn 
              print packageNameCn.split('-')[0]+"-苹果";
cursor.close();
conn.commit();
conn.close();
关键字:   python  
评论信息
暂无评论
发表评论
验证码: 
Powered by IMZHANGJIE.CN Copyright © 2015-2025 粤ICP备14056181号