轻量级前端框架助力开发者提升项目效率与性能
768
2022-10-24
python信息标记与信息提取
对信息进行标记后,可以增加信息的维度,形成信息的组织结构。可用于通信、程序等方面。
国际公认的信息标记有三种:
XML:可扩展标记语言,通过标签来构建信息。扩展性好,常用于Internet的信息交互和传递。JSON:通过有类型的键值对来构建信息。非常适合程序处理,特别适合移动云端和节点通信。一般都用在程序对接口处理的地方。JSON比XML简单,可惜的是JSON没有注释。YAML:通过无类型的键值对来构建信息,通过缩进方式来表示关系。用‘|’表示一整块内容,用‘#‘表示注释,用’-'减号表示并列关系。YAML的文本信息比例较高,它常用于各类系统的配置文件中。
xml标记信息示例:
JSON标记信息示例:
{ "person": { "firstName": "Tomason", "lastName": "Wong", "address": { "streetAddr": "BeiJing Road No.1 BeiJing China", "city": "BeiJing", "zipcode": "10000" }, "prof": [ "Computer System", "Security" ] }}
YAML标记信息示例:
person: firstName: Tomason lastName: Wong address: {streetAddr: BeiJing Road No.1 BeiJing China, city: BeiJing, zipcode: '10000'} prof: [Computer System, Security]
信息提取
方法一:完整解析信息的标记形式,再提取关键信息 优点:信息分析准确 缺点:提取过程繁琐且速度慢 例子:用bs4库就可以完成。方法二:无视任何标记形式,直接搜索关键信息 这种方式需要相应的库提供对信息文本的查找函数。 优点:提取过程简洁、快速 缺点:提取结果的准确性直接与信息内容相关
方法三:融合方法,综合了方法一和方法二的优点 这里我们可以用bs4作为标记解析器和文本搜索功能。 bs4提供了一个函数:
<>.find_all(name,attrs,recursive,string,**kwargs)
返回一个列表类型,存储查找的结果 name:对标签名称的检索字符串。 attrs:对标签属性值的检索字符串,可标属性检索 recursive:是否对子孙全部检索,默认True string:<>…>中字符串区域的检索字符串。 在检索时,我们还可以用上正则表达式。 示例代码:
import requestsfrom bs4 import BeautifulSoupimport redef find_all_url(rul): r = requests.get(url) r.raise_for_status() if r.encoding == "ISO-8859-1": r.encoding = r.apparent_encoding soup = BeautifulSoup(r.text, 'html.parser') # 找到所有的a标签 # 遍历所有a标签,获取href属性的值 for link in soup.findAll('a'): # print(link["href"]) print(link.get("href"))def find_html_content(url): r = requests.get(url) r.raise_for_status() if r.encoding == "ISO-8859-1": r.encoding = r.apparent_encoding soup = BeautifulSoup(r.text, 'html.parser') # 查找所有a标签 print(soup.find_all('a')) # 查寻a标签,且两个属性class=mnav,name=tj_trnews的标签 for tag in soup.find_all(name='a', attrs={'class': 'mnav', 'name': 'tj_trnews'}): print(tag) # 查询name属性以tj_开头的标签,内容中有“新”字的标签 for tag in soup.find_all(attrs={'name': re.compile('tj_')}, text=re.compile("新")): print(ag) # soup(...)等价于soup.find_all(...) #
find的扩展方法
方法 | 说明 |
<>.find() | 搜索且返回一个结果 ,字符串类型,同find_all()参数 |
<>.find_parents() | 在先辈节点中搜索,返回列表类型,同find_all()参数 |
<>.find_parent() | 在先辈节点 中返回一个结果 ,字符串类型,同find_all()参数 |
<>.find_next_siblings() | 在后续平行节点中搜索,返回列表类型,同find_all()参数 |
<>.find_next_sibling() | 在后续平行节点中搜索,返回一个结果,同find_all()参数 |
<>.find_previous_siblings() | 在前续平行节点中搜索,返回列表类型,同find_all()参数 |
<>.find_previous_sibling | 在前续平行节点中搜索,返回一个结果,同find_all()参数 |
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~