2020-07-28
Python教程
好程序员Python教程之Python爬虫相关框架,Python的爬虫框架就是一些爬虫项目的半成品。比如我们可以将一些常见爬虫功能的实现代码写好,然后留下一些接口,在做不同的爬虫项目时,我们只需要根据实际情况,只需要写少量需要变动的代码部分,并按照需要调用这些接口,即可以实现一个爬虫项目。
常见框架:
1.Scrapy框架是一套比较成熟的Python爬虫框架,是使用Python开发的快速、高层次的信息爬取框架,可以高效的爬取web页面并提取出结构化数据。
2.Crawley框架也是Python开发出的爬虫框架,该框架致力于改变人们从互联网中提取数据的方式。
3.Portia框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架。
4.newspaper框架是一个用来提取新闻、文章以及内容分析的Python爬虫框架。
5.Python-goose框架可提取的信息包括:文章主体内容、文章主要图片、文章中嵌入的任何Youtube/Vimeo视频、元描述、元标签。在Python中,开源爬虫框架很多,我们自己也可以写一些。我们并不需要掌握每一种爬虫框架,只需要深入掌握一种即可。大部分爬虫框架实现方式都是大同小异,建议学习最流行的Python爬虫框架——Scrapy。
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取(更确切来说, 网络抓取 )所设计的,也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services )或者通用的网络爬虫。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
Scrapy主要包括了以下组件:
1.引擎(Scrapy)
2.调度器(Scheduler)
3.下载器(Downloader)
4.爬虫(Spiders)
5.项目管道(Pipeline)
6.下载器中间件(Downloader Middlewares)
7.爬虫中间件(Spider Middlewares)
8.调度中间件(Scheduler Middewares)
Scrapy运行流程大概如下:
1.引擎从调度器中取出一个链接(URL)用于接下来的抓取
2. 引擎把URL封装成一个请求(Request)传给下载器
3. 下载器把资源下载下来,并封装成应答包(Response)
4. 爬虫解析Response
5. 解析出实体(Item),则交给实体管道进行进一步的处理
6. 解析出的是链接(URL),则把URL交给调度器等待抓取
以上就是我们常见的Python爬虫框架及简单介绍,当自己写爬虫时可根据不同需求应用不同的框架。
免责声明:内容和图片源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。
开班时间:2021-04-12(深圳)
开班盛况开班时间:2021-05-17(北京)
开班盛况开班时间:2021-03-22(杭州)
开班盛况开班时间:2021-04-26(北京)
开班盛况开班时间:2021-05-10(北京)
开班盛况开班时间:2021-02-22(北京)
开班盛况开班时间:2021-07-12(北京)
预约报名开班时间:2020-09-21(上海)
开班盛况开班时间:2021-07-12(北京)
预约报名开班时间:2019-07-22(北京)
开班盛况Copyright 2011-2023 北京千锋互联科技有限公司 .All Right 京ICP备12003911号-5 京公网安备 11010802035720号