python爬取糗百段子-FinClip官网

python爬取糗百段子

网友投稿 734 2022-09-17

python爬取糗百段子

（1）目标网站为：https://qiushibaike.com/text/

（2）爬取目标网站10页内容

（4）保存在字典中，格式如下：

{

'内容':'。。。。。。',

}

……

}

（5）将内容转换为jsON保存在文本中

1，首先对网页url进行分析确定前10页的url.

2，引用 requests bs4 json库。

3，写主函数主函数下面有请求url的函数将内容作为参数交给 bs4 做处理（需要确定网页标签）得到最终数据做持久化保存。

import requests

from bs4 import BeautifulSoup as BS

import json

headers={

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.108 Safari/537.36"

}

#ua伪装

text='https://qiushibaike.com/text'

count_num=1

def get_html(url):

html=requests.get(url,headers=headers)

#请求url

return html.text

#返回整页的数据，请求多少页返回多少页的数据。

def bs_html(text_content,content_dict):

global count_num

soup=BS(text_content,'html.parser')

#是要bs库里面的html.parser方法对text_content进行排序（text_content就是爬取的页面的html）

soup_list=soup.select('#content .article ')

#使用bs里的select这个方法找到页面里面标签。

for item in soup_list:

#循环这个整体标签(这是整个页面，我们需要里面的某些数据)

biaoti=item.select_one('.author a h2')

#item作为临时变量，每循环一次都要在里面提取出整体标签下的 h2 标签，这个就是标题，赋值给前面biaoti这个变量

if biaoti:

biaoti = biaoti.text.strip()

else:

biaoti='匿名用户'

content=item.select_one('a .content span').text.strip()

#整体标签下的内容也是上述方法，提取出来

#使用这个空字典前面加上计数器后面是字典形式每循环一次对应的计数+1

count_num += 1

return content_dict

#返回整个字典

def save_text(text_list):

#保存文件函数

with open('rut.txt','w',encoding='utf8')as f:

#这个文件不存在以写的方式打开就自动创建起个别名f

f.write(text_list)

#对f进行保存保存处理后的字典

f.close()

#保存后关闭文件

def main(num):

content_dict={}

#定义空字典

for i in range(1,num+1):

#循环次数 num是形参

url=text+'/page{}/'.format(i)

#最终的url 对初始的url进行拼接，最终得到10页子url

text_content=get_html(url)

#对url请求，返回的数据赋值给 text_content这个变量，作为bs函数的参数。

text_list=bs_html(text_content,content_dict)

#bs函数对整体的网页数据，空字典进行处理，当作两个参数放进去，上面bs函数处理好后返回整个字典，赋值给text_list这个变量

save_text(json.dumps(text_list,ensure_ascii=False))

#对数据保存前还要进行处理，参数是bs处理后的字典去掉ascii这个编码格式，保存时使用utf8格式

if __name__ == '__main__':

main(10)

洞察纵观鸿蒙next版本，如何凭借FinClip加强小程序的跨平台管理，确保企业在数字化转型中的高效运营和数据安全？

734 2022-09-17

python爬取糗百段子

洞察纵观鸿蒙next版本，如何凭借FinClip加强小程序的跨平台管理，确保企业在数字化转型中的高效运营和数据安全？

洞察金融行业需要转型，如何利用鸿蒙app开发提升运营效率

洞察在数字化转型过程中，信创推动企业有效整合资源，实现低成本、高效率的跨平台小程序运营。

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计