Python爬虫之JSON和JSONPath是如何正确运用的？案例详解（python爬虫解析json文件）-FinClip官网

Python爬虫之jsON和JSONPath是如何正确运用的？案例详解（python爬虫解析json文件）

网友投稿 906 2022-09-16

Python爬虫之JSON和JSONPath是如何正确运用的？案例详解（python爬虫解析json文件）

JSON和JSONPath

JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。

注意：光理论是不够的。这里顺便免费送大家一套2020最新python入门到高级项目实战视频教程，可以去小编的Python交流.裙：七衣衣九七七巴而五（数字的谐音）转换下可以找到了，还可以跟老司机交流讨教！

JsonPath 是一种信息抽取类库，是从JSON文档中抽取指定信息的工具，提供多种语言实现版本，包括：Javascript, Python， PHP 和 Java。

JsonPath 对于 JSON 来说，相当于 XPATH 对于 XML。

JsonPath与XPath语法对比：

Json结构清晰，可读性高，复杂度低，非常容易匹配，下表中对应了XPath的用法。

相关推荐：《Python相关教程》

利用JSONPath爬取拉勾网上所有的城市

#!/usr/bin/env python

# -*- coding:utf-8 -*-

import urllib2

# json解析库，对应到lxml

import json

# json的解析语法，对应到xpath

import jsonpath

url = "http://lagou.com/lbs/getAllCitySearchLabels.json"

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36'}

request = urllib2.Request(url, headers = headers)

response = urllib2.urlopen(request)

# 取出json文件里的内容，返回的格式是字符串

html = response.read()

# 把json形式的字符串转换成python形式的Unicode字符串

unicodestr = json.loads(html)

# Python形式的列表

city_list = jsonpath.jsonpath(unicodestr, "$..name")

#for item in city_list:

# print item

# dumps()默认中文为ascii编码格式，ensure_ascii默认为Ture

# 禁用ascii编码格式，返回的Unicode字符串，方便使用

array = json.dumps(city_list, ensure_ascii=False)

#json.dumps(city_list)

#array = json.dumps(city_list)

with open("lagoucity.json", "w") as f:

f.write(array.encode("utf-8"))

结果：

糗事百科爬取

利用XPATH的模糊查询

获取每个帖子里的内容

保存到 json 文件内

#!/usr/bin/env python

# -*- coding:utf-8 -*-

import urllib2

import json

from lxml import etree

url = "http://qiushibaike.com/8hr/page/2/"

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36'}

request = urllib2.Request(url, headers = headers)

html = urllib2.urlopen(request).read()

# 响应返回的是字符串，解析为HTML DOM模式 text = etree.HTML(html)

text = etree.HTML(html)

# 返回所有段子的结点位置，contains()模糊查询方法，第一个参数是要匹配的标签，第二个参数是标签名部分内容

node_list = text.xpath('//div[contains(@id, "qiushi_tag")]')

items ={}

for node in node_list:

# xpath返回的列表，这个列表就这一个参数，用索引方式取出来，用户名

username = node.xpath('./div/a/@title')[0]

# 取出标签下的内容,段子内容

content = node.xpath('.//div[@class="content"]/span')[0].text

# 取出标签里包含的内容，点赞

zan = node.xpath('.//i')[0].text

# 评论

comments = node.xpath('.//i')[1].text

items = {

"username" : username,

"content" : content,

"zan" : zan,

"comments" : comments

}

with open("qiushi.json", "a") as f:

f.write(json.dumps(items, ensure_ascii=False).encode("utf-8") + "

随着系统集成技术的发展，如何利用小程序容器技术提升企业的数字化转型效率是现代企业面临的重要挑战。企业应关注如何实现跨平台兼容、数据安全管理以及全生命周期管理，确保运营合规与灵活应变，以适应不断变化的市场需求和技术环境。

906 2022-09-16

Python爬虫之jsON和JSONPath是如何正确运用的？案例详解（python爬虫解析json文件）

政务服务平台开发需要注意如何提升小程序跨平台兼容性与用户体验

洞察移动政务小程序助力政府数字化转型，保障数据安全和效率提升

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计