大规模数据存储集群数据存放的设计,分布式shardid的生成 - 如何指定范围随机数, 分组随机数
背景 在一些分布式数据库系统中,通常会有多个数据节点,用户的数据分布策略通常有一致性哈希、按列哈希、随机分布等。 除了随机分布,其他的分布方法数据和数据节点是一对一的关系。 上当节点数变得特别特别多的时候,数据如果依旧按照全局进行哈希分布,可能会带来一个问题,例如节点数到达1万个,一张1亿的表,会分布到1万个...
背景 在一些分布式数据库系统中,通常会有多个数据节点,用户的数据分布策略通常有一致性哈希、按列哈希、随机分布等。 除了随机分布,其他的分布方法数据和数据节点是一对一的关系。 上当节点数变得特别特别多的时候,数据如果依旧按照全局进行哈希分布,可能会带来一个问题,例如节点数到达1万个,一张1亿的表,会分布到1万个...
背景 人类社会文明源起于河流文化,人类社会发展积淀河流文化,河流文化生命推动社会发展。 河流文化作为一种人类的文化、文明类型,被人们认知已经经历了很长的历史时期,人们把其称为“大河文明”,尼罗河、幼发拉底河、和底格里斯河流域的两河文明、印度河文明、黄河文明。 这些大河文明与人类文明息息相关,是人类文明的源泉...
背景 在金融行业中,或者一些含有支付业务,往来对账业务,虚拟货币业务等业务的场景中,账户系统的变更流水是一份很大的数据。 为什么需要这份流水呢?直接保留账户的最终状态不就好了吗? 实际上流水数据就是日志数据,它记录了用户的每一笔账户变动,流水数据可以作为审计数据,也可以用于数据分析,还可用于数据的追溯(例如交...
背景 在现实生活中,经常会有聚集分析的需求。 例如: 某个商场,每个时间点,商场的每个商铺位置的人群驻留数量。(有技术手段可以感知人的驻留位置,当走进某个区域时,将写入一条记录,表示你进入了这个区域,离开时记录一条离开的记录,如果长时间不动,则定时写心跳记录)。 某个网游,每个时间点,在线人数。(上线时写一...
背景 PostgreSQL gin索引接口常被用于多值列的检索,例如全文检索类型、数组类型。 有兴趣了解更多索引接口的原理和使用场景,可以参考下文。 《PostgreSQL 9种索引的原理和应用场景》 今天要说道一下PostgreSQL GIN索引的代码优化。 在说GIN代码优化前,我们先来看一个场景,以...
背景 总量100TB,日增量1TB(日增约100亿记录)左右。这样的体量应该可以覆盖目前绝大多数企业的数据库体量。 提到100TB级别,OLTP和OLAP的混合场景,大家可能会想到Oracle的一体机extradata,没错Oracle在这方面做得确实是非常棒的,但是价格也是很漂亮的。 Oracle主要通过几...
背景 金融、气象、物联网、互联网等行业,有特别多的时序数据,例如股票的交易数据,气象传感器的采集数据,车联网的轨迹数据,互联网的FEED数据,都具有非常强的时序属性。 时序数据如何有效的存储、方便的使用呢? 例如这样的写入 create table xx (xxx) ts interval day; ...
背景 客户端请求连接数据库后,会提示客户端输入用户密码,如果客户端不输入密码,那么数据库服务端会在一个超时时间后,断开连接。 也就是说,在服务端主动断开连接前,这个连接实际上需要占用一个SLOT,也就是max_connection中的一个。 https://www.postgresql.org/docs/9....
背景 随着移动终端的普及,现在有越来越多的业务数据会包含空间数据,例如手机用户的FEED信息、物联网、车联网、气象传感器的数据、动物的溯源数据,一系列跟踪数据。 这些数据具备这几个维度的属性: 1、空间 2、时间 3、业务属性,例如温度、湿度、消费额、油耗、等。 数据透视是企业BI、分析师、运营非常关心...
背景 PostgreSQL 拥有众多开放特性,例如 1、开放的数据类型接口,使得PG支持超级丰富的数据类型,除了传统数据库支持的类型,还支持GIS,JSON,RANGE,IP,ISBN,图像特征值,化学,DNA等等扩展的类型,用户还可以根据实际业务扩展更多的类型。 2、开放的操作符接口,使得PG不仅仅支持常见...