Python教程之Python爬虫相关框架

当前位置：首页 / 技术分享 / 正文

2020-07-28

Python教程

　　好程序员Python教程之Python爬虫相关框架，Python的爬虫框架就是一些爬虫项目的半成品。比如我们可以将一些常见爬虫功能的实现代码写好，然后留下一些接口，在做不同的爬虫项目时，我们只需要根据实际情况，只需要写少量需要变动的代码部分，并按照需要调用这些接口，即可以实现一个爬虫项目。

Python2

常见框架：

　　1.Scrapy框架是一套比较成熟的Python爬虫框架，是使用Python开发的快速、高层次的信息爬取框架，可以高效的爬取web页面并提取出结构化数据。

　　2.Crawley框架也是Python开发出的爬虫框架，该框架致力于改变人们从互联网中提取数据的方式。

　　3.Portia框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架。

　　4.newspaper框架是一个用来提取新闻、文章以及内容分析的Python爬虫框架。

　　5.Python-goose框架可提取的信息包括：文章主体内容、文章主要图片、文章中嵌入的任何Youtube/Vimeo视频、元描述、元标签。在Python中，开源爬虫框架很多，我们自己也可以写一些。我们并不需要掌握每一种爬虫框架，只需要深入掌握一种即可。大部分爬虫框架实现方式都是大同小异，建议学习最流行的Python爬虫框架——Scrapy。

　　Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取（更确切来说, 网络抓取）所设计的，也可以应用在获取API所返回的数据（例如 Amazon Associates Web Services ）或者通用的网络爬虫。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

　　Scrapy主要包括了以下组件：

　　1.引擎（Scrapy）

　　2.调度器（Scheduler）

　　3.下载器（Downloader）

　　4.爬虫（Spiders）

　　5.项目管道（Pipeline）

　　6.下载器中间件（Downloader Middlewares）

　　7.爬虫中间件（Spider Middlewares）

　　8.调度中间件（Scheduler Middewares）

　　Scrapy运行流程大概如下：

　　1.引擎从调度器中取出一个链接（URL）用于接下来的抓取

　　2. 引擎把URL封装成一个请求（Request）传给下载器