python信息标记与信息提取-FinClip官网

python信息标记与信息提取

网友投稿 768 2022-10-24

python信息标记与信息提取

对信息进行标记后，可以增加信息的维度，形成信息的组织结构。可用于通信、程序等方面。

国际公认的信息标记有三种：

XML：可扩展标记语言，通过标签来构建信息。扩展性好，常用于Internet的信息交互和传递。JSON：通过有类型的键值对来构建信息。非常适合程序处理，特别适合移动云端和节点通信。一般都用在程序对接口处理的地方。JSON比XML简单，可惜的是JSON没有注释。YAML：通过无类型的键值对来构建信息，通过缩进方式来表示关系。用‘｜’表示一整块内容，用‘＃‘表示注释，用’-'减号表示并列关系。YAML的文本信息比例较高，它常用于各类系统的配置文件中。

xml标记信息示例：

Tomason Wong

BeiJing Road No.1 BeiJing China BeiJing 10000

Computer System Security

JSON标记信息示例：

{ "person": { "firstName": "Tomason", "lastName": "Wong", "address": { "streetAddr": "BeiJing Road No.1 BeiJing China", "city": "BeiJing", "zipcode": "10000" }, "prof": [ "Computer System", "Security" ] }}

YAML标记信息示例：

person: firstName: Tomason lastName: Wong address: {streetAddr: BeiJing Road No.1 BeiJing China, city: BeiJing, zipcode: '10000'} prof: [Computer System, Security]

信息提取

方法一：完整解析信息的标记形式，再提取关键信息优点：信息分析准确缺点：提取过程繁琐且速度慢例子：用bs4库就可以完成。方法二：无视任何标记形式，直接搜索关键信息这种方式需要相应的库提供对信息文本的查找函数。优点：提取过程简洁、快速缺点：提取结果的准确性直接与信息内容相关

方法三：融合方法，综合了方法一和方法二的优点这里我们可以用bs4作为标记解析器和文本搜索功能。 bs4提供了一个函数：

<>.find_all(name,attrs,recursive,string,**kwargs)

返回一个列表类型，存储查找的结果 name：对标签名称的检索字符串。 attrs：对标签属性值的检索字符串，可标属性检索 recursive：是否对子孙全部检索，默认True string：<>…中字符串区域的检索字符串。在检索时，我们还可以用上正则表达式。示例代码：

import requestsfrom bs4 import BeautifulSoupimport redef find_all_url(rul): r = requests.get(url) r.raise_for_status() if r.encoding == "ISO-8859-1": r.encoding = r.apparent_encoding soup = BeautifulSoup(r.text, 'html.parser') # 找到所有的a标签 # 遍历所有a标签，获取href属性的值 for link in soup.findAll('a'): # print(link["href"]) print(link.get("href"))def find_html_content(url): r = requests.get(url) r.raise_for_status() if r.encoding == "ISO-8859-1": r.encoding = r.apparent_encoding soup = BeautifulSoup(r.text, 'html.parser') # 查找所有a标签 print(soup.find_all('a')) # 查寻a标签，且两个属性class＝mnav,name=tj_trnews的标签 for tag in soup.find_all(name='a', attrs={'class': 'mnav', 'name': 'tj_trnews'}): print(tag) # 查询name属性以tj_开头的标签,内容中有“新”字的标签 for tag in soup.find_all(attrs={'name': re.compile('tj_')}, text=re.compile("新")): print(ag) # soup(...)等价于soup.find_all(...) # (...)等价于.find_all(...) for tag in soup(attrs={'name': re.compile('tj_')}): print(tag)if __name__ == "__main__": url = " # find_all_url(url) find_html_content(url)

find的扩展方法

方法	说明
<>.find()	搜索且返回一个结果，字符串类型，同find_all()参数
<>.find_parents()	在先辈节点中搜索，返回列表类型，同find_all()参数
<>.find_parent()	在先辈节点中返回一个结果，字符串类型，同find_all()参数
<>.find_next_siblings()	在后续平行节点中搜索，返回列表类型，同find_all()参数
<>.find_next_sibling()	在后续平行节点中搜索，返回一个结果，同find_all()参数
<>.find_previous_siblings()	在前续平行节点中搜索，返回列表类型，同find_all()参数
<>.find_previous_sibling	在前续平行节点中搜索，返回一个结果，同find_all()参数

轻量级前端框架助力开发者提升项目效率与性能

768 2022-10-24

python信息标记与信息提取

轻量级前端框架助力开发者提升项目效率与性能

大屏前端框架如何推动企业数据可视化与用户体验的革新

探索flutter框架开发的app在移动应用市场的潜力与挑战

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计