项目地址:lorien/awesome-web-scraping
GitHub上awesome系列之Python的爬虫工具。
本列表包含Python网页抓取和数据处理相关的库。
网络相关
- 异步
- treq - 基于twisted、与requests类似的API
- aiohttp - asyncio的HTTP客户端/服务器 (PEP-3156)
网络爬虫框架
HTML/XML解析
文本处理
解析及操作文本的库
特殊格式处理
处理特编辑特殊字符格式的库
- 通用
- tablib - 处理XLS, CSV, JSON, YAML等表格数据的库
- textract - 从任何文档中提取文本,支持Word, PowerPoint, PDF等
- messytables - 杂乱的表格数据解析
- rows - 支持多种格式的通用且美观的表格数据处理器(现有CSV, HTML, XLS, TXT -- 即将支持更多)
- 可移植的执行体
- pefile - 一个多平台的用于解析和处理可移植执行体(即PE)文件的模块
- PSD
- psd-tools - 将Adobe Photoshop PSD(即PE)文件读取到Python数据结构
自然语言处理
自然语言处理库
浏览器自动化与仿真
- 浏览器
- selenium - 自动化真实浏览器(Chrome, Firefox, Opera, IE)
- Ghost.py - QtWebKit封装(需求PyQT)
- Spynner - 具备AJAX支持的程序化网页浏览模块
- Splinter - 通用API浏览器模拟器(selenium web驱动,Django客户端,Zope)
多进程并发
异步
异步网络编程库
队列
- celery - 基于分布式消息传递的异步任务队列/作业队列
- huey - 小型多线程任务队列
- mrq - Mr. Queue - 使用redis & Gevent 的Python分布式工作任务队列
- RQ - 基于Redis的轻量级任务队列管理器
- simpleq - 一个简单的,可无限扩展,基于Amazon SQS的队列
- python-gearman - Gearman的Python API
云计算
电子邮件
电子邮件处理库
URL和网络地址操作
URL和网络地址操作库
- URL
- furl - 一个小的Python库,使得操纵URL简单化
- purl - 一个简单的不可改变的URL以及一个干净的用于调试和操作的API
- urllib.parse - 用于打破统一资源定位器(URL)的字符串在组件(寻址方案,网络位置,路径等)之间的隔断,为了结合组件到一个URL字符串,并将“相对URL”转化为一个绝对URL,称之为“基本URL”(标准库)
- tldextract - 使用公共后缀列表从URL的注册域和子域中准确分离TLD
- 网络地址
网页内容提取
网页内容提取库
WebSocket
用于WebSocket的库
DNS解析
- dnsyo - 在全球超过1500个的DNS服务器上检查你的DNS
- pycares - ic-ares的接口。c-ares是进行DNS请求和异步名称决议的C语言库
计算机视觉
- OpenCV - 开源计算机视觉库
- SimpleCV - 用于照相机、图像处理、特征提取、格式转换的简介,可读性强的接口(基于OpenCV)
- mahotas - 快速计算机图像处理算法(完全使用 C++ 实现),完全基于 numpy 的数组作为它的数据类型
代理服务器
- shadowsocks - 一个快速隧道代理,可帮你穿透防火墙(支持TCP和UDP,TFO,多用户和平滑重启,目的IP黑名单)
- tproxy - tproxy是一个简单的TCP路由代理(第7层),基于Gevent,用Python进行配置
杂项
- user_agent - 此模块用于生成随机,有效的Web导航器的配置和用户代理HTTP header
其他
原文来自:SDK.cn
声明:所有来源为“聚合数据”的内容信息,未经本网许可,不得转载!如对内容有异议或投诉,请与我们联系。邮箱:marketing@think-land.com