增量式解析大型XML文件-FinClip官网

增量式解析大型XML文件

网友投稿 674 2022-11-19

增量式解析大型XML文件

问题

你想使用尽可能少的内存从一个超大的XML文档中提取数据。

解决方案

任何时候只要你遇到增量式的数据处理时，第一时间就应该想到迭代器和生成器。下面是一个很简单的函数，只使用很少的内存就能增量式的处理一个大型XML文件：

from xml.etree.ElementTree import iterparsedef parse_and_remove(filename, path): path_parts = path.split('/') doc = iterparse(filename, ('start', 'end')) # Skip the root element next(doc) tag_stack = [] elem_stack = [] for event, elem in doc: if event == 'start': tag_stack.append(elem.tag) elem_stack.append(elem) elif event == 'end': if tag_stack == path_parts: yield elem elem_stack[-2].remove(elem) try: tag_stack.pop() elem_stack.pop() except IndexError: pass

为了测试这个函数，你需要先有一个大型的XML文件。通常你可以在政府网站或公共数据网站上找到这样的文件。例如，你可以-XML格式的芝加哥城市道路坑洼数据库。在写这本书的时候，-文件已经包含超过100,000行数据，编码格式类似于下面这样：

2012-11-18T00:00:00 Completed 2012-11-18T00:00:00 12-01906549 Pot Hole in Street Final Outcome CDOT Street Cut ... Outcome 4714 S TALMAN AVE 60632 1159494.68618856 1873313.83503384 14 9 58 41.808090232127896 -87.69053684711305 2012-11-18T00:00:00 Completed 2012-11-18T00:00:00 12-01906695 Pot Hole in Street Final Outcome CDOT Street Cut ... Outcome 3510 W NORTH AVE 60647 1152732.14127696 1910409.38979075 26 14 23 41.91002084292946 -87.71435952353961

假设你想写一个脚本来按照坑洼报告数量排列邮编号码。你可以像这样做：

from xml.etree.ElementTree import parsefrom collections import Counterpotholes_by_zip = Counter()doc = parse('potholes.xml')for pothole in doc.iterfind('row/row'): potholes_by_zip[pothole.findtext('zip')] += 1for zipcode, num in

这个脚本唯一的问题是它会先将整个XML文件加载到内存中然后解析。在我的机器上，为了运行这个程序需要用到450MB左右的内存空间。如果使用如下代码，程序只需要修改一点点：

from collections import Counterpotholes_by_zip = Counter()data = parse_and_remove('potholes.xml', 'row/row')for pothole in data: potholes_by_zip[pothole.findtext('zip')] += 1for zipcode, num in

结果是：这个版本的代码运行时只需要7MB的内存–大大节约了内存资源。

讨论

这一节的技术会依赖 ElementTree 模块中的两个核心功能。第一，iterparse() 方法允许对XML文档进行增量操作。使用时，你需要提供文件名和一个包含下面一种或多种类型的事件列表： start , end, start-ns 和 end-ns 。由 iterparse() 创建的迭代器会产生形如 (event, elem) 的元组，其中 event 是上述事件列表中的某一个，而 elem 是相应的XML元素。例如：

>>> data = iterparse('potholes.xml',('start','end'))>>> next(data)('start', )>>> next(data)('start', )>>> next(data)('start', )>>> next(data)('start', )>>> next(data)('end', )>>> next(data)('start', )>>> next(data)('end', )>>>

这本节例子中， start 和 end 事件被用来管理元素和标签栈。栈代表了文档被解析时的层次结构，还被用来判断某个元素是否匹配传给函数 parse_and_remove() 的路径。如果匹配，就利用 yield 语句向调用者返回这个元素。

在 yield 之后的下面这个语句才是使得程序占用极少内存的ElementTree的核心特性：

elem_stack[-2].remove(elem)

这个语句使得之前由 yield 产生的元素从它的父节点中删除掉。假设已经没有其它的地方引用这个元素了，那么这个元素就被销毁并回收内存。

对节点的迭代式解析和删除的最终效果就是一个在文档上高效的增量式清扫过程。文档树结构从始自终没被完整的创建过。尽管如此，还是能通过上述简单的方式来处理这个XML数据。

这种方案的主要缺陷就是它的运行性能了。我自己测试的结果是，读取整个文档到内存中的版本的运行速度差不多是增量式处理版本的两倍快。但是它却使用了超过后者60倍的内存。因此，如果你更关心内存使用量的话，那么增量式的版本完胜。

Flutter开发App的未来及其在各行业的应用潜力分析

674 2022-11-19

增量式解析大型XML文件

app开发者平台在数字化时代的重要性与发展趋势解析

Flutter开发App的未来及其在各行业的应用潜力分析

探索flutter框架开发的app在移动应用市场的潜力与挑战

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计