简易中文自动文摘系统（五）：自动文摘实现及总结-FinClip官网

简易中文自动文摘系统（五）：自动文摘实现及总结

网友投稿 727 2022-08-25

简易中文自动文摘系统（五）：自动文摘实现及总结

经过上述的工作以及编程，我们使用Python已经设计出简要的中文自动文摘系统。我们选取一段关于南京邮电大学计算机学院、软件学院、网络空间安全学院的简介，选择其中经过本文模型训练选择的权重最高的5句话作为摘要。

输出结果为：

本实验中使用的中文语料库为维基百科中文语料库，维基百科中文语料库的质量较高，而且领域广泛(适合本文研究的问题)，经过测试模型的结果也是如此——对于“北京”、“南京”、“大学”等词的测试都较为准确。当然它的缺点也有，突出缺点就是语料库的语句数量较少，相比于国内的北大中文语料库、哈工大中文语料库、百度百科中文语料库和互动百科中文语料库等千万级别的语料库，数据量要少一个数量级(约91万条)，最明显的是对于一些中文特有的人名的识别。的确，在实验的文章中有一个单词并未实现分词：“余人次”，故本人将该词替换为“多人”，成功识别。其中分词使用到的是jieba分词，jieba分词作为一个python的中文分词外部包，安装与使用非常方便，功能也非常强大，基本可以完成对日常中文语句的精确分词。

本文介绍了PageRank算法和TextRank算法，并重点研究了TextRank算法对单一文档中各个句子、单词的权重计算，做出评价分析进行重点语句筛选，抽取出文章摘要这一过程的原理。

文章重点研究了机械文摘的抽取式自动文摘算法，并用其实现了简单中文文档的自动文摘生成。并以一篇南京邮电大学计算机学院、软件学院、网络空间安全学院的简介为例，对该文章进行分句、分词，使用得到的模型进行训练，得到自动文摘。诚然，本文并未进行模型评价和优化，这对于在进一步的研究中可以对模型进行评价和优化。

随着大数据时代的到来，指数级的数据增长对数据信息筛选提出更高的要求。国外Google、Amazon和国内百度、腾讯等公司早已对自然语言理解进行研究，国内外各大高等院校(如麻省理工学院、北京大学、北京邮电大学、清华大学、上海交通大学、哈尔滨工业大学等)也对自动文摘进行了卓有建树的研究。因此，在大数据+人工智能的时代，从学习Python编程语言，建立集成开发环境，学习中文语料的处理方法，查阅自然语言处理的资料，学习自动文摘模型，学习TextRank算法的原理，到实现单文档自动文摘算法，都要通过不断学习技术和知识来实现。

智慧屏安装 app如何提升家庭娱乐与教育体验的关键工具

727 2022-08-25

简易中文自动文摘系统（五）：自动文摘实现及总结

app开发者平台在数字化时代的重要性与发展趋势解析

智慧屏第三方App安装如何提升用户体验与功能拓展

智慧屏安装 app如何提升家庭娱乐与教育体验的关键工具

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计