干货 | 知识库全文检索的最佳实践-FinClip官网

干货 | 知识库全文检索的最佳实践

网友投稿 815 2022-10-29

干货 | 知识库全文检索的最佳实践

1、题记

这是stackoverflow上一篇精彩的问答。

原文不大好理解，我做了梳理+图解；原文是ES早期版本，部分写法已不适用，所有DSL我在6.X上进行了重写和验证；针对原文内容做了扩展。

2、知识库全文检索问题抛出

重新审视一个停滞不前的项目，并寻求建议，对数千个“旧”文档进行现代化改造，

最终期望效果：通过网络访问这些文档。文档以各种格式存在，有些已经过时： - .doc， - PageMaker， - 硬拷贝hardcopy （OCR）， - PDF

- ……

很多文档已经被转化成扫描版的PDF，之前我们认为PDF类型是最终的文档格式，现在看来，我们想听听建议（比如：xml是不是更好呢？）

核心需求点：

1、一旦所有文档都采用通用格式，我们希望通过网页界面提供其内容并提供搜索服务。

2、我们希望通过搜索，能够灵活地只返回整个文档的部分页面（我相信的Lucene / elasticsearch使这成为可能？！？）

3、如果所有文档是XML是否会更加灵活？

4、如何存储、在哪里存储XML？是直接存储在数据库中还是存储成文件系统中的文件？关于文档中的嵌入式图像/图表呢？

以上，希望得到回复。

注解：xml只是提问者的当时初步的理解。

3、精彩回复

我将推荐ElasticSearch，我们先解决这个问题并讨论如何实现它：

这有几个部分：

从文档中提取文本以使它们可以索引（indexable），以备检索；以全文搜索形式提供此文本；高亮显示文档片段；知道文档中的哪些段落可用于分页；返回完整的文档。

ElasticSearch可以提供什么：

ElasticSearch（如Solr）使用Tika从各种文档格式中提取文本和元数据；Elasticsearch提供了强大的全文搜索功能。它可以配置为以适当的语言分析每个文档，它可以借助boost提高某些字段的权重（例如，标题比内容更重要），ngrams分词等标准Lucene操作；Elasticsearch可以高亮显示搜索结果；Elasticsearch不知道这些片段在您的文档中出现的位置；Elasticsearch可以将原始文档存储为附件，也可以存储并返回提取的文本。但它会返回整个文档，而不是一个页面。

【直译】您可以将整个文档作为附件发送到ElasticSearch，并且可以进行全文搜索。但是关键点在于上面的（4）和（5）：知道你文档中的位置，并返回文档的某些部分。存储单个页面可能足以满足您的“我在哪里”的目的，但是您希望将它们分组，以便在搜索结果中返回文档，即使搜索关键字出现在不同的页面上。

任务分解：

3.1、索引部分——将文档存储在ElasticSearch中。

使用Tika（或任何你喜欢的）来从每个文档中提取文本。将其保留为纯文本或HTML格式以保留一些格式。（忘记XML，不需要它）。

每个文档提取元数据：标题，作者，章节，语言，日期等。

将原始文档存储在您的文件系统中，并记录路径，以便以后可以使用。

在ElasticSearch中，索引包含所有元数据和可能的章节列表的“doc”文档。

将每个页面索引为“page”文档，其中包含： - 包含“doc”文档ID的父字段（请参阅下面的“父子关系”） - 文本 - 页码 - 也许章节标题或编号 - 您想要搜索的任何元数据

存储必备——父子文档关系：

通常，在ES（和大多数NoSQL解决方案）中，每个文档/对象都是独立的 - 没有真正的关系。通过建立“doc”和“page”之间的父子关系，ElasticSearch确保子文档（即“页面”）与父文档（“doc”）存储在同一分片上。这使您能够运行has_child等的查询方式，它将根据“page”的内容找到最匹配的“doc”。

图解示例：

二、检索部分—— 现在进行搜索。

你如何做到这一点取决于你想如何展示你的结果

按页面page分组，按文档doc分组。

通过页面的结果很容易。

此查询返回匹配页面的列表（每个页面全部返回）以及页面中高亮显示的片段列表。

举例如下：

POST /my_index/page/_search?pretty=1{ "query" : { "match" : { "text" : "interesting keywords" } }, "highlight": { "pre_tags": [ "" ], "post_tags": [ "" ], "require_field_match": true, "fields": { "title": {} } } }

显示包含文本高亮字段的“doc”分组有点棘手。它不能用一个单一的查询来完成。

一种方法可能是：

第1步：通过对其子（“页面”）查询，返回最匹配的父级（“doc”）。

POST /my_index/doc/_search?pretty=1{ "query": { "has_child": { "type": "page", "query": { "bool": { "must": [ { "match": { "text": "interesting keywords" } }, { "term": { "type": "page" } }, { "term": { "factor": "5" } } ] } }, "score_mode": "sum"

第2步：从上述查询中收集“doc”ID 发出新查询，从匹配的“页面”文档中获取片段。

GET /my_index/page/_search?pretty=1{ "query" : { "bool" : { "must":{ "query" : { "match" : { "text" : "interesting keywords" } }}, "filter" : { "terms" : { "doc_id" : [1,2,3] } } } }, "highlight" : { "fields" : { "text"

第3步：在您的应用程序中，将上述查询的结果按doc分组并显示出来。

使用第二个查询的搜索结果，您已经拥有了可供显示的页面的全文。要转到下一页，您可以搜索它：

GET /my_index/page/_search?pretty=1{ "query" : { "constant_score" : { "filter" : [ { "term" : { "doc_id" : 1 } }, { "term" : { "page" : 2 } } ] } }, "size" : 1

或者，给“页面”文档提供一个由doc_id _ doc_id _

curl -XGET'Tika toolkit可以自动检测各种文档(如word,ppt,xml,csv,ppt等)的类型并抽取文档的元数据和文本内容。

Tika集成了现有的文档解析库，并提供统一的接口，使针对不同类型的文档进行解析变得更简单。Tika针对搜索引擎索引、内容分析、转化等非常有用。

4、有没有现成的开源实现呢？

22:43 思于家中床前

作者：铭毅天下

洞察纵观鸿蒙next版本，如何凭借FinClip加强小程序的跨平台管理，确保企业在数字化转型中的高效运营和数据安全？

815 2022-10-29

干货 | 知识库全文检索的最佳实践

洞察纵观鸿蒙next版本，如何凭借FinClip加强小程序的跨平台管理，确保企业在数字化转型中的高效运营和数据安全？

洞察金融行业需要转型，如何利用鸿蒙app开发提升运营效率

洞察在数字化转型过程中，信创推动企业有效整合资源，实现低成本、高效率的跨平台小程序运营。

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计