Recent Posts

[转载]易上手的数据挖掘、可视化与机器学习工具: Orange介绍

less than 1 minute read

背景 可视化分析会是一个让枯燥的数据说话的快捷途径,降低可视化分析门槛,同时又保留它的编程能力,是非常重要的。 如今数据种类越来越多,除了常见的数值、文本,还有数组、K-V、图像、空间数据、波、基因 等等。对可视化分析软件的要求也越来越高。 原文 http://blog.just4fun.site/Ora...

PostgreSQL 实时位置跟踪+轨迹分析系统实践 - 单机顶千亿轨迹/天

3 minute read

背景 随着移动设备的普及,越来越多的业务具备了时空属性,例如快递,试试跟踪包裹、快递员位置。例如实体,具备了空间属性。 例如餐饮配送,送货员位置属性。例如车辆,实时位置。等等。 其中两大需求包括: 1、对象位置实时跟踪,例如实时查询某个位点附近、或某个多边形区域内的送货员。 2、对象位置轨迹记录和分析。结...

Greenplum hash分布算法

1 minute read

背景 Greenplum,如果从master节点写入数据的话,写入性能实际上是比较差的,但是我们可以直接连数据节点来写入: 《让greenplum的oltp性能飞起来》 这种用法需要客户端从master获取gp_segment_configuration,同时需要获取表的分布键,同时需要使用cdbhash算法...

PostgreSQL 时序数据案例 - 时间流逝, 自动压缩(时间粒度老化), 同比环比

4 minute read

背景 时序数据库一个重要的特性是时间流逝压缩,例如1天前压缩为5分钟一个点,7天前压缩为30分钟一个点。 PostgreSQL 压缩算法可定制。例如简单的平均值、最大值、最小值压缩,或者基于旋转门压缩算法的压缩。 《[未完待续] SQL流式案例 - 旋转门压缩(前后计算相关滑窗处理例子)》 《旋转门数据压缩...

惊天性能!单RDS PostgreSQL实例 支撑 2000亿 - 实时标签透视案例 (含dblink异步并行调用)

5 minute read

背景 20亿用户,每个用户1000个标签,基于任意标签组合圈选、透视(业务上的需求是一次最多计算100个标签的组合)。 相当于要处理2000亿记录。 1、实时求标签组合的记录数。(即满足标签组合的用户有多少) 2、用户ID。(级满足标签组合的用户ID。) 要求实时响应。 通常你肯定会想,这个至少需要上百...

超时流式处理 - 没有消息流入的数据异常监控

2 minute read

背景 流计算有个特点,数据流式写入,流式计算。 但是有一种情况,可能无法覆盖。例如电商中的 收货超时,退款处理超时 事件的流式监控。因为数据都不会再写进来了,所以也无法触发流式计算。 这些问题如何流式预警呢? 可以用超时时间+调度的方式,当然这里面有PostgreSQL的独门秘籍: 1、CTE,语法灵活。...