常用python爬虫库介绍与简要说明

常用python爬虫库介绍与简要说明

pythonadmin2020-11-21 18:14:3533A+A-

  PySocks–SocksiPy更新并积极维护的版本,包括错误修复和一些其他的特征。作为socket模块的直接替换。

  uniout–打印可读字符,而不是被转义的字符串。

  rows– 一个常用数据接口,支持的格式很多(目前支持CSV,HTML,XLS,TXT – 将来还会提供更多!)。

  pefile– 一个多平台的用于解析和处理可移植执行体(即PE)文件的模块。

  NLTK-编写Python程序来处理人类语言数据的最好平台。

  Pattern– Python的网络挖掘模块。他有自然语言处理工具,机器学习以及其它。

  TextBlob– 为深入自然语言处理任务提供了一致的API。是基于NLTK以及Pattern的巨人之肩上发展的。

  pymorphy2– 俄语形态分析器(词性标注+词形变化引擎)。

  PyPLN – 用Python编写的分布式自然语言处理通道。这个项目的目标是创建一种简单的方法使用NLTK通过网络接口处理大语言库。

  selenium– 自动化真正的浏览器(Chrome浏览器,火狐浏览器,Opera浏览器,IE浏览器)。

  celery– 基于分布式消息传递的异步任务队列/作业队列。

  celery– 基于分布式消息传递的异步任务队列/作业队列。

  purl– 一个简单的不可改变的URL以及一个干净的用于调试和操作的API。

  urllib.parse– 用于打破统一资源定位器(URL)的字符串在组件(寻址方案,网络位置,路径等)之间的隔断,为了结合组件到一个URL字符串,并将“相对URL”转化为一个绝对URL,称之为“基本URL”。

  tldextract– 从URL的注册域和子域中准确分离TLD,使用公共后缀列表。

  scrapely– 从HTML网页中提取结构化数据的库。给出了一些Web页面和数据提取的示例,scrapely为所有类似的网页构建一个分析器。

  SimpleCV– 用于照相机、图像处理、特征提取、格式转换的简介,可读性强的接口(基于OpenCV)。

  mahotas– 快速计算机图像处理算法(完全使用 C++ 实现),完全基于 numpy 的数组作为它的数据类型。

  shadowsocks– 一个快速隧道代理,可帮你穿透防火墙(支持TCP和UDP,TFO,多用户和平滑重启,目的IP黑名单)。

点击这里复制本文地址 免责声明:本站内容由程序自动采集于互联网,无人工干预,只作交流和学习使用,本站不储存任何资源内容,如有侵权请联系qq邮箱798244092@qq.com立刻删除,谢谢!

支持Ctrl+Enter提交

java © All Rights Reserved.  
Powered by 多多资源网 Themes by 多多资源网
联系我们| 关于我们| 留言建议| 网站管理