干货 | Elasticsearch 趋势科技实战分享笔记-FinClip官网

干货 | Elasticsearch 趋势科技实战分享笔记

网友投稿 689 2022-10-29

干货 | Elasticsearch 趋势科技实战分享笔记

少啰嗦，直接看东西。

Elasticsearch 最少必要知识实战教程直播回放

1、Elasticsearch 索引的设计

1.1 单一索引还是基于时间的索引？

单一索引的问题：

1）不能更新Mapping。

比如：主分片数不可以修改（除非reindex）。

2）无法灵活、快速地扩展。

3）更适合固定、小型数据集。

基于时间的索引面临的问题： 1）如何确定间隔？数据量变更频率默认尝试每周为单位分割——建议 2）如何实施？索引模板

1.2 定义索引注意事项

举例：

{ "facet_internet_access_minute":{ "template":"ce-index-access-v1-*", "order":0, "settings":{ "number_of_shards":5 }, "aliases":{ "{index}-query":{ } }, "mappings":{ "es_doc":{ "dynamic":"strict", "_all":{ "enabled":false }, "_source":{ "enabled":false }, "properties":{ "CLF_Timestamp":{ "type":"long" }, "CLF_CustomerID":{ "type":"keyword" }, "CLF_ClientIP":{ "type":"ip", "ignore_malformed":true } } } } }}

注意1：不要在一个索引中定义多个type。

6.X版本已经不支持，7.X版本彻底不支持。扩展问题：5.X版本的父子文档实际实现中是一个索引中定义了多个type，到了6.X中实现方式改变为：join方式。

注意2：将Set _source设置为false。

假设你只关心度量结果，不是原始文件内容。将节省磁盘空间并减少IO。这个点，需要结合实际的业务场景具体问题具体分析。举例：

“_source”:{ “enabled”:false },

注意3：将_all设置为false。

假设你确切地知道你对哪个field做查询操作？能实现性能提升，缩减存储。举例：

“_all”:{ “enabled”:false },

注意4：设置dynamic = strict。

假设你的数据是结构化数据。字段设置严格，避免脏数据注入。举例：

“dynamic”:“strict”,

注意5：使用keyword类型

假设你只关心完全匹配提高性能和缩小磁盘存储空间举例：

“CLF_CustomerID”:{ “type”:“keyword” },

注意6：使用别名

如何在不停机的前提从一个索引切换到另一个索引？

举例：

“aliases”:{ “{index}-query”:{ }

或者你通过head插件创建。

2、Elasticsearch分片分配原则

社区和QQ群中经常被问到的问题：

1）应该分几个索引、几个分片？2）每个分片大小如何设置？3）副本多少如何设置？

这里，明确给出实操可行的6个步骤。

步骤1：定义索引。

思考索引中要大致有哪些字段？最好能列一个Excel表统计一下，包含但不限于：序号、名称、类型、作用、备注。以上对计算单条数据大小也有用。

步骤2：评估数据量。

评估方法举例： 1分钟有100条数据，1天=1006024=144000条。 1月=144000条30天=432W条数据。 1年=432W12=5184W条数据。假设要保存2年，共=10368W条数据。假设每条数据20KB，共需要存储：10368W*20/1024/1024/1024=1.977TB。

步骤3：评估索引大小和磁盘空间。

步骤4：计算分片数。

细节考虑点： 1、每个分片大小应小于30GB。 2、分片数量= k *数据节点数目（k = 一个足够小的整数，举例：1,2,3） 3、假设你有一个小的索引，并且你有集群中有足够的节点，请尝试使用默认值分片数5。

步骤5：评估索引数和类型。

（此处可能会有多次反馈迭代）

3、数据去重的思考？

方法1：指定唯一id

缺点： 1、唯一值无法压缩，不利于存储。 2、存在高基数问题。

方法2：用聚合方法实现

步骤1：所有文档加一个Hash值；步骤2：检查重复；

GET *_index/_search { “size”:0, “aggs”:{ “duplicate”:{ “terms”:{ “field”:“hash”, “min_doc_count”:2, “size”:5000 }, “aggs”:{ “documents”:{ “top_hits”:{ “size”:2 } } } } } }

步骤3：批量删除步骤2中的重复id。以上步骤，不影响写入，可以实现异步。

缺点： 1、存储量大（尤其超过3亿条+）； 2、随着数据量增加，聚合受影响，越来越慢。 3、存在高基数问题。

方法3：用distinct query实现

深入方法待进一步探讨。

4、小结

以上内容是Elasticsearch南京分享会20180630上的分享核心笔记。具体PPT地址：很受用的分析步骤和实战经验，实战中都可以用得上。

2017-07-03 00:30 思于家中床前

作者：铭毅天下

微前端架构如何改变企业的开发模式与效率提升

689 2022-10-29

干货 | Elasticsearch 趋势科技实战分享笔记

微前端架构如何改变企业的开发模式与效率提升

前端开源框架如何提升开发效率与用户体验的关键因素

前端移动端框架如何推动数字化转型与创新发展

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计