Utils详解¶
Html¶
html_downloader¶
采用requests做为下载器引擎
本框架采用版本 2.12.0
- download(url, method=’GET’, timeout=60)
url: 目标网站URLmethod: 规定请求方式,默认为GETtimeout: 规定超时时间(默认为60)**kwargs: 与requests保持一致
- downloadFile(url, save_path=’./data/’)
url: 目标文件URLsave_path: 文件保存路径
requests传送门: http://www.python-requests.org/en/master/
html_parser¶
采用BeautifulSoup4做为解析器引擎
- parser(response)
解析UTF-8编码网页
- gbk_parser(response)
解析GBK编码网页
- jsonp_parser(response)
解析不规则json网页(key不带双引号),返回dict
beautifulsoup4传送门: https://www.crummy.com/software/BeautifulSoup/
Sql¶
db¶
采用sqlalchemy操作数据库 具体支持数据库,参考:http://docs.sqlalchemy.org/en/latest/core/engines.html
- __init__(db_url, **kwargs)
db_url为数据库地址
- init_table()
初始化数据库
- drop_table()
清空数据库
sqlalchemy传送门: http://www.sqlalchemy.org/