网络爬虫(第一集:爬取网页信息)

网友投稿 732 2022-09-04

网络爬虫(第一集:爬取网页信息)

网络爬虫(第一集:爬取网页信息)

BeautifulSoup对网页进行解析

from bs4 import BeautifulSouppath = './web/new_index.html'data = []with open(path, 'r', encoding='gbk') as f: Soup = BeautifulSoup(f.read(), 'lxml') titles = Soup.select('body > div.main-content > ul > li > div.article-info > h3 > a') # 标题 pics = Soup.select('body > div.main-content > ul > li > img') # 图片 descs = Soup.select('body > div.main-content > ul > li > div.article-info > p.description') # 简介 rates = Soup.select('body > div.main-content > ul > li > div.rate > span') # 分数 cates = Soup.select('body > div.main-content > ul > li > div.article-info > p.meta-info') # 标签# 将多个列表组装成字典for title, pic, desc, rate, cate in zip(titles, pics, descs, rates, cates): info = { 'title': title.get_text(), 'pic': pic.get('src'), 'descs': desc.get_text(), 'rate': rate.get_text(), 'cate': list(cate.stripped_strings) } data.append(info)for item in data: if len(item['rate']) >= 3: # 大于3分的内容 print(item['title'], item['cate'])

真实世界中的网页解析

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:QJson的使用
下一篇:MySQL 到底是怎么解决幻读的?(mysql安装教程)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~