app开发者平台在数字化时代的重要性与发展趋势解析
727
2022-08-25
简易中文自动文摘系统(五):自动文摘实现及总结
经过上述的工作以及编程,我们使用Python已经设计出简要的中文自动文摘系统。我们选取一段关于南京邮电大学计算机学院、软件学院、网络空间安全学院的简介,选择其中经过本文模型训练选择的权重最高的5句话作为摘要。
输出结果为:
本实验中使用的中文语料库为维基百科中文语料库,维基百科中文语料库的质量较高,而且领域广泛(适合本文研究的问题),经过测试模型的结果也是如此——对于“北京”、“南京”、“大学”等词的测试都较为准确。当然它的缺点也有,突出缺点就是语料库的语句数量较少,相比于国内的北大中文语料库、哈工大中文语料库、百度百科中文语料库和互动百科中文语料库等千万级别的语料库,数据量要少一个数量级(约91万条),最明显的是对于一些中文特有的人名的识别。的确,在实验的文章中有一个单词并未实现分词:“余人次”,故本人将该词替换为“多人”,成功识别。其中分词使用到的是jieba分词,jieba分词作为一个python的中文分词外部包,安装与使用非常方便,功能也非常强大,基本可以完成对日常中文语句的精确分词。
本文介绍了PageRank算法和TextRank算法,并重点研究了TextRank算法对单一文档中各个句子、单词的权重计算,做出评价分析进行重点语句筛选,抽取出文章摘要这一过程的原理。
文章重点研究了机械文摘的抽取式自动文摘算法,并用其实现了简单中文文档的自动文摘生成。并以一篇南京邮电大学计算机学院、软件学院、网络空间安全学院的简介为例,对该文章进行分句、分词,使用得到的模型进行训练,得到自动文摘。诚然,本文并未进行模型评价和优化,这对于在进一步的研究中可以对模型进行评价和优化。
随着大数据时代的到来,指数级的数据增长对数据信息筛选提出更高的要求。国外Google、Amazon和国内百度、腾讯等公司早已对自然语言理解进行研究,国内外各大高等院校(如麻省理工学院、北京大学、北京邮电大学、清华大学、上海交通大学、哈尔滨工业大学等)也对自动文摘进行了卓有建树的研究。因此,在大数据+人工智能的时代,从学习Python编程语言,建立集成开发环境,学习中文语料的处理方法,查阅自然语言处理的资料,学习自动文摘模型,学习TextRank算法的原理,到实现单文档自动文摘算法,都要通过不断学习技术和知识来实现。
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~