分布式数据库如何玩转HTAP场景

网友投稿 455 2023-11-28

分布式数据库如何玩转HTAP场景

这篇文章给大家介绍分布式数据库如何玩转HTAP场景，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。

分布式数据库如何玩转HTAP场景

传统数据库架构面临的痛点

1. 集群分散不利于整合，数据结构同步工作量大

第一招：数据源的数据同步

通过开发消费kafka的程序将数据同步到SequoiaDB数据中，保持和生产实时同步。以下为数据同步加载架构图：

第二招：弹性扩容

第三招：多模数据引擎使用

MySQL 实例适用于比较熟悉 MySQL 的操作人员，适合精准查询、业务数据写入、柜面查询、OLTP场景。增删查改操作和 MySQL 完全一致，底层数据保存在 SequoiaDB。

PostgreSQL 实例适用于比较熟悉 PostgreSQL 的操作人员，适合精准查询和OLAP场景。支持增删查改等功能和 PostgreSQL 使用完全一致，采用外表的方式将数据保存在 SequoiaDB 中。

Spark 实例为分布式集群，SparkSQL 适合报表分析、大表关联查询和 OLAP 场景。跨库关联查询比较友好，支持标准 SQL、支持 JDBC 访问、支持 Python 对接查询。

第四招：多种 SQL 引擎关联使用方法

4.1 MySQL 创建表

创建 temp.test 这张表，其中字段信息如下所示：

create tabletemp.test ( numcodesmallint, agentcode char(12), bankname varchar(120), flagdecimal(8,4), timecode datetime );

给 temp.test 这个表插入下面的4条记录：

insert into temp.test (numcode,agentcode,bankname,flag,timecode)values(1,test1,beijingbank1,10.1,2019-06-21 10:07:52’); insert into temp.test (numcode,agentcode,bankname,flag,timecode)values(2,test2,beijingbank2,10.2,2019-06-22 10:07:52’); insert into temp.test (numcode,agentcode,bankname,flag,timecode)values(3,test3,beijingbank3,10.3,2019-06-23 10:07:52’); insert into temp.test(numcode,agentcode,bankname,flag,timecode)values(4,test4,beijingbank4,10.4,2019-06-24 10:07:52);

更新 temp.test 中 numcode=1 的记录中 bankname 为 "guangzhoubank"

mysql> update temp.test set bankname="guangzhoubank" where numcode=1; Query OK, 0 rows affected (0.00 sec)Rows matched: 0 Changed: 0 Warnings: 0

更新后再次查询，显示更新已经成功

mysql> select * from temp.test;

删除 temp.test 表中 numcode=1 的这条记录

mysql> delete from temp.test where numcode=1; Query OK, 0 rows affected (0.01 sec) mysql>select * from temp.test;

在 PostgreSQL 客户端创建映射表，能够查询出数据

temp=# create foreign table test temp-# ( temp(# numcode int, temp(# agentcode text, temp(# bankname text, temp(# flag decimal(8,4), temp(#timecode text temp(# ) temp-# server sdb_server temp-# options ( collectionspace temp, collection test, decimal on);

连接 SparkSQL 客户端创建映射表，能够查询出数据

create table temp.test ( numcode int, agentcodestring, bankname string, flag decimal(8,4), timecodestring )USING com.sequoiadb.spark OPTIONS ( host 10.139.***.***:11810, collectionspace temp, collectiontest) ;

以上证明 MySQL 、PostgreSQL 和Spark 三者之间数据是通的，数据可以共用。

4.2 使用Spark生成子表

连接 Spark 客户端，使用 create table as 的方式创建新表 test2

create table temp.test2 USING com.sequoiadb.spark OPTIONS ( host 10.139.***.***:11810’, domainallDomain’, collectionspace temp’, collectiontest2’, ignoreduplicatekey true , shardingkey {"_id":1}’, shardingTypehash’ , compressiontype lzw’ , autosplit true’ )as select * from temp.test ;

连接 MySQL 客户端，映射 Spark 创建的新表能够查询出同步的数据

mysql> create table temp.test2 -> ( -> numcode smallint, -> agentcodechar(12), -> bankname varchar(120), -> flag decimal(8,4), -> timecode datetime -> ); mysql> select * from temp.test2;

第五招：多副本机制的应用

5.1 同城三副本高可用架构

其中有主备两个机房，其中主机房部署两个节点，备机房部署一个节点。三台机器共同组成一个数据组，其中选举逻辑遵循 Raft 协议。

5.2 主备一致性设置

在分布式系统中，一致性是指数据在多个副本之间数据保持一致的特性。SequoiaDB 巨杉数据库支持不同级别的主备一致性策略，以适配不同的应用场景。用户可根据业务对数据安全性和服务可用性的要求，选择不同的一致性策略。

1）强一致性

写所有节点当发生写操作时，数据库会确保所有复制组节点都同步完成才返回。写操作处理成功后，后续读到的数据一定是当前复制组内最新的。优势是能够有效的保证数据的完整性和安全性，劣势则是会降低复制组的写入性能，并且当集群内有一个节点故障或者异常时，无法写入数据，降低高可用性。

在核心交易型业务中，为了保证数据安全性，同时可以牺牲一定的写入性能时，推荐使用强一致性策略。

2）最终一致性

为了提升数据库的高可用性，以及实现数据的读写分离，SequoiaDB 默认采用“最终一致性”策略。在读写分离时，读取的数据在某一段时间内可能不是最新的，但副本间的数据最终是一致的。

写主节点在主节点执行写操作成功后，写操作即可返回。对数据查询一致性要求不高的业务，如历史数据查询平台，夜间批量导入数据以及白天提供查询业务，推荐使用写主节点的最终一致性策略。

其中强一致还是最终一致创建集合时由 ReplSize 这个参数来指定，创建集合时如设置 ReplSize 为-1表示强一致，默认为 ReplSize 值为1表示最终一致。根据使用场景来选择使用强一致还是最终一致，用户可以通过 db.setAttributes() 修改 ReplSize 属性。

第六招：多样化的监控工具

SequoiaPerf 工具除了能够协助用户对慢查询快速定位分析，还能够帮助用户全面监控 SequoiaDB 数据集群。在 SequoiaPerf 的首页上，用户可以对 SequoiaDB 数据库集群运行情况做一个宏观的浏览，快速查阅当前集群的运行情况。

在 SequoiaPerf 的服务器资源页面上，用户可以了解服务器更加详细的信息。

例如服务器磁盘的I/O使用情况，可以通过放大图表获得更加详细的数据。同时用户也可以通过页面右上角的时间栏，选择查看近期一段时间的资源使用情况。

小结

1. 数据库在数据管理中的突出能力

SequoiaDB 巨杉数据库是一款金融级分布式关系型数据库，产品引擎采用原生分布式架构，100%兼容 MySQL 语法和协议，支持完整的 ACID 和分布式事务。同时 SequoiaDB 还提供多模（multi-model）数据库存储引擎，原生支持多数据中心容灾机制，是新一代分布式数据库的首选。SequoiaDB 巨杉数据库可以为用户带来如下价值：

完全兼容传统关系型数据，数据分片对应用程序完全透明

高性能与无限水平弹性扩展能力

分布式事务与 ACID 能力

同时支持结构化、半结构化与非结构化数据

金融级安全特性，多数据中心间容灾做到 RPO = 0

HTAP 混合负载，同时运行联机交易与批处理任务且互不干扰

多租户能力，云环境下支持多种级别的物理与逻辑隔离

2. 实践成果

数据库完美解决目前传统数据库面临的痛点，降低了IT成本、提高运维效率，使数据能够有效给企业提供服务。其优势如下：

提高查询效率，使用 Spark 大表查询效率提高20倍。

容量多，合并同步了多个生产库、历史库的全部数据。

模式新，支持多种数据类型、结构化和非结构化。

扩容简单，支持快速扩容和缩容，基本有机器就能扩容。

上手简单，一键部署使用，降低dba学习成本。

查询引擎丰富，支持多种 SQL 查询引擎，丰富业务使用。

接口丰富，除了 SQL 还支持 JDBC、ODBC 和 API 多种接口，灵活使用。

系统完备，有新的业务系统随时可以接入。

关于分布式数据库如何玩转HTAP场景就分享到这里了，希望以上内容可以对大家有一定的帮助，可以学到更多知识。如果觉得文章不错，可以把它分享出去让更多的人看到。

标签：数据库数据方法程序

暂时没有评论，来抢沙发吧~

分布式数据库如何玩转HTAP场景

分布式数据库如何玩转HTAP场景

小程序容器助力企业在金融与物联网领域实现高效合规运营，带来的新机遇与挑战如何管理？

小程序引擎如何促进企业在金融行业的数字化转型及合规运营

企业如何通过vue小程序开发满足高效运营与合规性需求

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计