Digoal.Zhou's Blog

[未完待续]数据挖掘、可视化与机器学习工具: redash

less than 1 minute read

背景可视化分析会是一个让枯燥的数据说话的快捷途径，降低可视化分析门槛，同时又保留它的编程能力，是非常重要的。

[未完待续]数据挖掘、可视化与机器学习工具: superset

less than 1 minute read

背景可视化分析会是一个让枯燥的数据说话的快捷途径，降低可视化分析门槛，同时又保留它的编程能力，是非常重要的。

[转载]易上手的数据挖掘、可视化与机器学习工具: Orange介绍

less than 1 minute read

背景可视化分析会是一个让枯燥的数据说话的快捷途径，降低可视化分析门槛，同时又保留它的编程能力，是非常重要的。如今数据种类越来越多，除了常见的数值、文本，还有数组、K-V、图像、空间数据、波、基因等等。对可视化分析软件的要求也越来越高。原文 http://blog.just4fun.site/Ora...

PostgreSQL 实时位置跟踪+轨迹分析系统实践 - 单机顶千亿轨迹/天

3 minute read

背景随着移动设备的普及，越来越多的业务具备了时空属性，例如快递，试试跟踪包裹、快递员位置。例如实体，具备了空间属性。例如餐饮配送，送货员位置属性。例如车辆，实时位置。等等。其中两大需求包括： 1、对象位置实时跟踪，例如实时查询某个位点附近、或某个多边形区域内的送货员。 2、对象位置轨迹记录和分析。结...

Greenplum hash分布算法

1 minute read

背景 Greenplum，如果从master节点写入数据的话，写入性能实际上是比较差的，但是我们可以直接连数据节点来写入：《让greenplum的oltp性能飞起来》这种用法需要客户端从master获取gp_segment_configuration，同时需要获取表的分布键，同时需要使用cdbhash算法...

PostgreSQL 遗传学应用 - 矩阵相似距离计算 (欧式距离,…XX距离)

4 minute read

背景生物科学中相当重要的工作之一解开遗传密码? 欧式空间计算，是其中的一个需求，很有意思吧，PostgreSQL可以用来解开遗传密码。 https://en.wikipedia.org/wiki/Euclidean_distance https://www.math.uci.edu/~gpatrick/s...

PostgreSQL 时序数据案例 - 时间流逝, 自动压缩(时间粒度老化), 同比环比

4 minute read

背景时序数据库一个重要的特性是时间流逝压缩，例如1天前压缩为5分钟一个点，7天前压缩为30分钟一个点。 PostgreSQL 压缩算法可定制。例如简单的平均值、最大值、最小值压缩，或者基于旋转门压缩算法的压缩。《[未完待续] SQL流式案例 - 旋转门压缩(前后计算相关滑窗处理例子)》《旋转门数据压缩...

会议室预定系统实践(解放开发) - PostgreSQL tsrange(时间范围类型) + 排他约束

3 minute read

背景 PostgreSQL 范围、数组、空间类型(range, array, geometry)，都有交叉属性，例如时间范围：7点到9点，8点到9点，这两个内容是有重叠部分的。例如数组类型：[1,2,3]和[2,4,5]是有交叉部分的。例如空间类型也有交叉的属性。那么在设计时，实际上业务上会有这样的约束，不允...

惊天性能！单RDS PostgreSQL实例支撑 2000亿 - 实时标签透视案例 (含dblink异步并行调用)

5 minute read

背景 20亿用户，每个用户1000个标签，基于任意标签组合圈选、透视（业务上的需求是一次最多计算100个标签的组合）。相当于要处理2000亿记录。 1、实时求标签组合的记录数。（即满足标签组合的用户有多少） 2、用户ID。（级满足标签组合的用户ID。）要求实时响应。通常你肯定会想，这个至少需要上百...

超时流式处理 - 没有消息流入的数据异常监控

2 minute read

背景流计算有个特点，数据流式写入，流式计算。但是有一种情况，可能无法覆盖。例如电商中的收货超时，退款处理超时事件的流式监控。因为数据都不会再写进来了，所以也无法触发流式计算。这些问题如何流式预警呢？可以用超时时间+调度的方式，当然这里面有PostgreSQL的独门秘籍： 1、CTE，语法灵活。...

Bill Tian

Recent Posts

[未完待续]数据挖掘、可视化与机器学习工具: redash

[未完待续]数据挖掘、可视化与机器学习工具: superset

[转载]易上手的数据挖掘、可视化与机器学习工具: Orange介绍

PostgreSQL 实时位置跟踪+轨迹分析系统实践 - 单机顶千亿轨迹/天

Greenplum hash分布算法

PostgreSQL 遗传学应用 - 矩阵相似距离计算 (欧式距离,…XX距离)

PostgreSQL 时序数据案例 - 时间流逝, 自动压缩(时间粒度老化), 同比环比

会议室预定系统实践(解放开发) - PostgreSQL tsrange(时间范围类型) + 排他约束

惊天性能！单RDS PostgreSQL实例支撑 2000亿 - 实时标签透视案例 (含dblink异步并行调用)

超时流式处理 - 没有消息流入的数据异常监控