Scrapy 框架学习

网友投稿 565 2022-10-18

Scrapy 框架学习

案例 jd图书爬虫

jd图书网站爬取比较容易，主要是数据的提取

spider 代码：

import scrapy from jdbook.pipelines import JdbookPipeline import re from copy import deepcopy class JdbookspiderSpider(scrapy.Spider): name = 'jdbookspider' allowed_domains = ['jd.com'] start_urls = ['https://book.jd.com/booksort.html'] # 处理分类页面的数据 def parse(self, response): # 这里借助了selenium 先访问jd图书网，因为直接get请求jdbook 获取到只是一堆js代码，没有有用的html元素，通过selenium正常访问网页，将page_source（就是当前网页的页面内容，selenium提供的属性）返回给spider进行数据处理 # 处理大分类的列表页 response_data, driver = JdbookPipeline.gain_response_data(url='https://book.jd.com/booksort.html') driver.close() item = {} # 由于selenium返回的page_source是字符串,所以不能直接使用xpath,使用了正则(也可以借助bs4 再使用正则) middle_group_link = re.findall('.*?.*?.*?', response_data, re.S) big_group_name = re.findall('

.*?(.*?).*?.*?.*?

', response_data, re.S) big_group_link = re.findall('

.*?.*?.*?.*?.*?

', response_data, re.S) middle_group_name = re.findall('.*?(.*?).*?', response_data, re.S) for i in range(len(middle_group_link)): var = str(middle_group_link[i]) var1 = var[:var.find("com") + 4] var2 = var[var.find("com") + 4:] var3 = var2.replace("-", ",").replace(".html", "") var_end = "+ var1 + "list.html?cat=" + var3 for j in range(len(big_group_name)): temp_ = var_end.find(str(big_group_link[j]).replace("-", ",")) if temp_ != -1: item["big_group_name"] = big_group_name[j] item["big_group_link"] = big_group_link[j] item["middle_group_link"] = var_end item["middle_group_name"] = middle_group_name[i] # 请求大分组下的小分组的详情页 if var_end is not None: yield scrapy.Request( var_end, callback=self.parse_detail, meta={"item": deepcopy(item)} ) # 处理图书列表页的数据 def parse_detail(self, response): print(response.url) item = response.meta["item"] detail_name_list = re.findall('

.*?

.*?(.*?)', response.body.decode(), re.S) detail_content_list = re.findall( '

.*?

.*?.*?

.*?.*?.*?￥.*?(.*?)', response.body.decode(), re.S) page_number_end = re.findall('.*?.*?.*?.*?.*?(.*?).*?', response.body.decode(), re.S)[0] print(len(detail_price_list)) print(len(detail_name_list)) for i in range(len(detail_name_list)): detail_link = detail_link_list[i] item["detail_name"] = detail_name_list[i] item["detail_content"] = detail_content_list[i] item["detail_link"] = "+ detail_link item["detail_price"] = detail_price_list[i] yield item # 翻页 for i in range(int(page_number_end)): next_url = item["middle_group_link"] + "&page=" + str(2*(i+1) + 1) + "&s=" + str(60*(i+1)) + "&click=0" yield scrapy.Request( next_url, callback=self.parse_detail, meta={"item": deepcopy(item)} )
pipeline 代码：
# Define your item pipelines here # # Don't forget to add your pipeline to the ITEM_PIPELINES setting # See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html # useful for handling different item types with a single interface import csv from itemadapter import ItemAdapter from selenium import webdriver import time class JdbookPipeline: # 将数据写入csv文件 def process_item(self, item, spider): with open('./jdbook.csv', 'a+', encoding='utf-8') as file: fieldnames = ['big_group_name', 'big_group_link', 'middle_group_name', 'middle_group_link', 'detail_name', 'detail_content', 'detail_link', 'detail_price'] writer = csv.DictWriter(file, fieldnames=fieldnames) writer.writerow(item) return item def open_spider(self, spider): with open('./jdbook.csv', 'w+', encoding='utf-8') as file: fieldnames = ['big_group_name', 'big_group_link', 'middle_group_name', 'middle_group_link', 'detail_name', 'detail_content', 'detail_link', 'detail_price'] writer = csv.DictWriter(file, fieldnames=fieldnames) writer.writeheader() # 提供的正常访问jdbook 方法,借助selenium @staticmethod def gain_response_data(url): drivers = webdriver.Chrome("E:\python_study\spider\data\chromedriver_win32\chromedriver.exe") drivers.implicitly_wait(2) drivers.get(url) drivers.implicitly_wait(2) time.sleep(2) # print(tb_cookie) return drivers.page_source, drivers
案例当当图书爬虫
当当网的爬取也是比较容易, 但是这里需要结合scrapy-redis来实现分布式爬取数据
import urllib from copy import deepcopy import scrapy from scrapy_redis.spiders import RedisSpider import re # 不再是继承Spider类，而是继承自scrapy_redis的RedisSpider类 class DangdangspiderSpider(RedisSpider): name = 'dangdangspider' allowed_domains = ['dangdang.com'] # http://book.dangdang.com/ # 同时,start_urls 也不在使用, 而是定义一个redis_key, spider要爬取的request对象就以该值为key, url为值存储在redis中,spider爬取时就从redis 中获取 redis_key = "dangdang" # 处理图书分类数据 def parse(self, response): div_list = response.xpath("//div[@class='con flq_body']/div") for div in div_list: item = {} item["b_cate"] = div.xpath("./dl/dt//text()").extract() item["b_cate"] = [i.strip() for i in item["b_cate"] if len(i.strip()) > 0] # 中间分类分组 if len(item["b_cate"]) > 0: div_data = str(div.extract()) dl_list = re.findall('''
.*?
(.*?)
''', div_data, re.S) for dl in dl_list: if len(str(dl)) > 100: dl = re.findall('''.*?title="(.*?)".*?''', dl, re.S) item["m_cate"] = str(dl).replace(" ", "").replace("\r\n", "") # 小分类分组 a_link_list = re.findall( '''.*?''', div_data, re.S) a_cate_list = re.findall( '''(.*?)''', div_data, re.S) print(a_cate_list) print(a_link_list) for a in range(len(a_link_list)): item["s_href"] = a_link_list[a] item["s_cate"] = a_cate_list[a] if item["s_href"] is not None: yield scrapy.Request( item["s_href"], callback=self.parse_book_list, meta={"item": deepcopy(item)} ) # 处理图书列表页数据 def parse_book_list(self, response): item = response.meta["item"] li_list = response.xpath("//ul[@class='bigimg']/li") # todo 改进，对不同的图书列表页做不同的处理 # if li_list is None: # print(True) for li in li_list: item["book_img"] = li.xpath('./a[1]/img/@src').extract_first() if item["book_img"] is None: item["book_img"] = li.xpath("//ul[@class='list_aa ']/li").extract_first() item["book_name"] = li.xpath("./p[@class='name']/a/@title").extract_first() item["book_desc"] = li.xpath("./p[@class='detail']/text()").extract_first() item["book_price"] = li.xpath(".//span[@class='search_now_price']/text()").extract_first() item["book_author"] = li.xpath("./p[@class='search_book_author']/span[1]/a/text()").extract_first() item["book_publish_date"] = li.xpath("./p[@class='search_book_author']/span[2]/text()").extract_first() item["book_press"] = li.xpath("./p[@class='search_book_author']/span[3]/a/text()").extract_first() next_url = response.xpath("//li[@class='next']/a/@href").extract_first() yield item if next_url is not None: next_url = urllib.parse.urljoin(response.url, next_url) yield scrapy.Request( next_url, callback=self.parse_book_list, meta={"item": item} )
pipeline 代码：
import csv from itemadapter import ItemAdapter class DangdangbookPipeline: # 将数据写入到csv文件中 def process_item(self, item, spider): with open('./dangdangbook.csv', 'a+', encoding='utf-8', newline='') as file: fieldnames = ['b_cate', 'm_cate', 's_cate', 's_href', 'book_img', 'book_name', 'book_desc', 'book_price', 'book_author', 'book_publish_date', 'book_press'] writer = csv.DictWriter(file, fieldnames=fieldnames) writer.writerow(item) return item def open_spider(self, spider): with open('./dangdangbook.csv', 'w+', encoding='utf-8', newline='') as file: fieldnames = ['b_cate', 'm_cate', 's_cate', 's_href', 'book_img', 'book_name', 'book_desc', 'book_price', 'book_author', 'book_publish_date', 'book_press'] writer = csv.DictWriter(file, fieldnames=fieldnames) writer.writeheader()
settings 代码：
BOT_NAME = 'dangdangbook' SPIDER_MODULES = ['dangdangbook.spiders'] NEWSPIDER_MODULE = 'dangdangbook.spiders' # 需要scrapy-redis 的去重功能,这里引用 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" # 以及调度器 SCHEDULER = "scrapy_redis.scheduler.Scheduler" SCHEDULER_PERSIST = True # LOG_LEVEL = 'WARNING' # 设置redis 的服务地址 REDIS_URL = 'redis://127.0.0.1:6379' # Crawl responsibly by identifying yourself (and your website) on the user-agent USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36' # Obey robots.txt rules ROBOTSTXT_OBEY = False ITEM_PIPELINES = { 'dangdangbook.pipelines.DangdangbookPipeline': 300, }
crontab 定时执行
以上都在Linux平台的直接操作crontab。
在python环境下我们可以借助pycrontab 来操作crontab 来设置定时任务。
补充
自定义的excel 到导出文件格式代码：
from scrapy.exporters import BaseItemExporter import xlwt class ExcelItemExporter(BaseItemExporter): def __init__(self, file, **kwargs): self._configure(kwargs) self.file = file self.wbook = xlwt.Workbook() self.wsheet = self.wbook.add_sheet('scrapy') self.row = 0 def finish_exporting(self): self.wbook.save(self.file) def export_item(self, item): fields = self._get_serialized_fields(item) for col, v in enumerate(x for _, x in fields): self.wsheet.write(self.row, col, v) self.row += 1
版权声明：本文内容由网络用户投稿，版权归原作者所有，本站不拥有其著作权，亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容，请联系我们jiasou666@gmail.com 处理，核实后本网站将在24小时内删除侵权内容。

标签：js 网页数据

上一篇:Z-BlogPHP- PHP 开发的博客程序

下一篇:淘宝抓取和翻译PHP程序

相关文章

微信开发中 ACCESS TOKEN 过期失效的解决方案详解

565 2022-10-18

微信小程序利用 JS 实现注册 60s 倒计时功能解析

565 2022-10-18

微信小程序本地存储与登录页面处理实例详细讲解

565 2022-10-18

发表评论

取消回复

暂时没有评论，来抢沙发吧~

最近发表

微信小程序选项卡功能开发步骤与方法全解析

微信开发中 ACCESS TOKEN 过期失效的解决方案详解

微信小程序利用 JS 实现注册 60s 倒计时功能解析

微信小程序开发实现 tabs 选项卡效果实例代码解析

微信小程序开发中选项卡页面切换实现方法详解

微信小程序获取验证码倒计时 60s 实例分析与解读

微信小程序开发中实现侧边栏滑动效果方法详细解析

微信小程序页面间跳转监听事件详解及方法说明

微信小程序本地存储与登录页面处理实例详细讲解

PHP 对接微信公众平台消息接口开发流程实例详解

更多内容

小程序SDK
Finclip技术文档
小程序开发
小程序容器
小程序框架
Finclip小程序平台
Finclip用户投稿
车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？
小程序支付功能怎么实现？
企业app开发流程是什么？
app运营模式有哪些？
小程序多端引流怎么做？
小程序生态分析的机会和威胁
Flutter入门这一篇效率文章就够了
原生与跨平台解决方案分析,跨平台软件开发技术方案
热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案
证券解决方案
互联网解决方案
政企OA解决方案
科技解决方案
loT解决方案
信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模
Hybrid App混合模式开发的了解
小程序容器技术助力券商数字营销突围，小程序容器化的意
用mpvue开发微信小程序基础知识（vue.js开发
小程序多端框架全面测评对比，强烈推荐！
开放银行银行案例，迎接金融创新的未来

小程序容器技术
微信生态支持小程序生命周期管理开发生态工具完善小程序SDK 技术生态

交流与合作

地址：深圳市福田区凯丰路 10号国际金融科技城 19层电话：0755-86967467 邮箱：contact@finogeeks.com

粤ICP备2023123045号-2