基于python scrapy框架抓取豆瓣影视资料

网友投稿 1285 2022-10-27

基于python scrapy框架抓取豆瓣影视资料

基于python scrapy框架抓取豆瓣影视资料

基于python3 scrapy框架抓取豆瓣影视资料

思路

资料分类策略:参考了:https://zhuanlan.zhihu.com/p/24771128?refer=pythoncrawl

添加了“电影”、“电视剧”标签以区分影视是电影还是电视剧

代理、cookie等策略:参考了:https://zhuanlan.zhihu.com/p/24035574 但现在换bid的策略的好像不行了;用代理服务器又太慢(可在setting.py中取消HttpProxyMiddleware那行的注释以用代理服务器,会自 动抓取代理)。因此本项目用的是: 1.单ip连续抓取,40次/分钟(超过的话很快会被封) 2.遇到302错误(ip被封)就等待3.5小时再抓取的策略(ip被豆瓣封后3-3.5小时解封)

完整抓取64000条影视数据需时7-8天,可用多机分开抓取不同分类以提高速度

所需软件

Anaconda + mysql,Windows和Linux皆可

使用方法

请先安装Anaconda,把其中的python3可执行文件设为系统默认的python可执行文件 在setting.py补充db相关信息(MYSQWL_开头那几行) 在db执行init.sql 执行python run.py,爬虫就会启动,把抓取到的资料写进pz_douban_movie表中

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:简单介绍Reac+redux+webpack 基础框架的使用
下一篇:new出来的对象中无法使用@autowired进行对象bean注入问题
相关文章

 发表评论

暂时没有评论,来抢沙发吧~