常用python爬虫库介绍与简要说明
PySocks–SocksiPy更新并积极维护的版本,包括错误修复和一些其他的特征。作为socket模块的直接替换。
uniout–打印可读字符,而不是被转义的字符串。
rows– 一个常用数据接口,支持的格式很多(目前支持CSV,HTML,XLS,TXT – 将来还会提供更多!)。
pefile– 一个多平台的用于解析和处理可移植执行体(即PE)文件的模块。
NLTK-编写Python程序来处理人类语言数据的最好平台。
Pattern– Python的网络挖掘模块。他有自然语言处理工具,机器学习以及其它。
TextBlob– 为深入自然语言处理任务提供了一致的API。是基于NLTK以及Pattern的巨人之肩上发展的。
pymorphy2– 俄语形态分析器(词性标注+词形变化引擎)。
PyPLN – 用Python编写的分布式自然语言处理通道。这个项目的目标是创建一种简单的方法使用NLTK通过网络接口处理大语言库。
selenium– 自动化真正的浏览器(Chrome浏览器,火狐浏览器,Opera浏览器,IE浏览器)。
celery– 基于分布式消息传递的异步任务队列/作业队列。
celery– 基于分布式消息传递的异步任务队列/作业队列。
purl– 一个简单的不可改变的URL以及一个干净的用于调试和操作的API。
urllib.parse– 用于打破统一资源定位器(URL)的字符串在组件(寻址方案,网络位置,路径等)之间的隔断,为了结合组件到一个URL字符串,并将“相对URL”转化为一个绝对URL,称之为“基本URL”。
tldextract– 从URL的注册域和子域中准确分离TLD,使用公共后缀列表。
scrapely– 从HTML网页中提取结构化数据的库。给出了一些Web页面和数据提取的示例,scrapely为所有类似的网页构建一个分析器。
SimpleCV– 用于照相机、图像处理、特征提取、格式转换的简介,可读性强的接口(基于OpenCV)。
mahotas– 快速计算机图像处理算法(完全使用 C++ 实现),完全基于 numpy 的数组作为它的数据类型。
shadowsocks– 一个快速隧道代理,可帮你穿透防火墙(支持TCP和UDP,TFO,多用户和平滑重启,目的IP黑名单)。