如何使用Hanlp加载大字典

网友投稿 389 2024-01-04

如何使用Hanlp加载大字典

这篇文章将为大家详细讲解有关如何使用Hanlp加载大字典，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。

如何使用Hanlp加载大字典

　问题

因为需要加载一个近 1G 的字典到Hanlp中，一开始使用了CustomDictionay.add() 方法来一条条的加载，果然到了中间，维护DoubleArraTre 的成本太高，添加一个节点，都会很长时间，本来时间长一点没有关系，只要训练出.bin 的文件，第二次加载就会很快，然而作为以空间换时间的DAT结构，内存消耗很大，预料之内的出现了

out of memory: heap size

的问题。　后来尝试直接加载了1G 的字典，显然更不行。

思路

阅读了Hanlp的　部分源码，也请教了原作者一部分问题，　就打算从源码入手。初步想法大概是将原始字典

split 成多份，然后分别将多份的小字典训练成多个小的.bin 文件，再完整的加载到内存中，基于的原则则是：加载两个10M的字典的消耗比一个20M的要小。

然后又优化了一部分，现在加载一个大概1G的字典，占内存约3g+ ，已经可以使用了。

大概流程

修改　CustomDictionary.java　设置一个 hashmap　或者一个 list 来存储所有的小Dat

将所有的dat加载完，这里就不再区分主副字典了。

修改Segment.java里面的combineByCustomDictionary 函数，源码中只有一个dat，这里我们需要选择我们容器中其中某一个dat作为要匹配使用，之前使用的方案是，遍历所有的dat，知道有了匹配，但是这样缺陷很明显，解决不了多个字典匹配同一个词的字串的情况，这里我的考察方案是，字典中的同一个字开始的词条映射到同一个文件，这样不会出现字串问题了。

关于“如何使用Hanlp加载大字典”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，使各位可以学到更多知识，如果觉得文章不错，请把它分享出去让更多的人看到。

洞察探索小程序支付功能实现的最佳策略，如何通过FinClip技术简化支付流程并提升用户体验，助力企业数字化转型

389 2024-01-04

如何使用Hanlp加载大字典

如何使用Hanlp加载大字典

洞察探索如何利用兼容微信生态的小程序容器，实现跨平台开发，助力金融和车联网行业的数字化转型。

洞察企业如何通过FinClip提升跨平台小程序加载效率，适应多样化市场需求

洞察探索小程序支付功能实现的最佳策略，如何通过FinClip技术简化支付流程并提升用户体验，助力企业数字化转型

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计