在PostgreSQL中用线性回归分析(linear regression) - 实现数据预测
背景 首先来个线性回归分析linear regression, 最小二乘法least-squares-fit的小故事(取自百度) : 1801年,意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后,由于谷神星运行至太阳背后,使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观...
背景 首先来个线性回归分析linear regression, 最小二乘法least-squares-fit的小故事(取自百度) : 1801年,意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后,由于谷神星运行至太阳背后,使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观...
背景 PostgreSQL支持较多的聚合函数, 以PostgreSQL 9.4为例, 支持例如一般性的聚合, 统计学科的聚合, 排序集聚合, 假象集聚合等. 本文将对一般性聚合函数举例说明其功能和用法. 以下图表参考 : http://www.postgresql.org/docs/9.4/static/f...
背景 PostgreSQL自带了一些常用的统计学聚合函数, 非常好用. 本文介绍一下方差和标准差的一些聚合函数. 总体方差 : population covariance 总体标准差 : population standard deviation 样本方差 : sample covariance 样本标...
背景 PostgreSQL统计信息中, 有一个相关性的统计, 在pg_stats.correlation中可以查看到, 统计值范围从-1到1, 趋向于-1表示逆向相关, 趋向于1表示正向相关, 趋向于0表示不相关. postgres=# \d pg_stats View "pg_cat...
背景 函数内容比较敏感时, 如何提高函数内容的隐射或安全性呢? 1. 可以使用加密函数的方法来提高安全性. 需要安装额外的插件. 2. 可以使用C函数, 用户无法看到函数内容. 3. 如果以上方法无法在你的生产环境实施的话, 那么可以通过控制pg_proc的权限来控制谁可以看到函数内容. 例如, 我们这里...
背景 这是一个OCZ的SSD, 一般用一半以内的容量是性能比较好, 所以480G的SSD, 我分了220G给ZFS缓存. 但是注意对其的问题. # fdisk -c -u /dev/sda 开始位置2048 新增块数2048*1024*220-1=461373439 因为原来配置的块未对其, 所以...
背景 朋友公司有一个需求, 需要生成一笔随机的唯一数据, 随机取出来使用, 用完下次不能重复使用. 使用PostgreSQL来实现的话, 有以下方法, 性能OK. 创建测试表, 存放一堆唯一值. postgres=# create table tbl (id int); CREATE TABLE ...
背景 某张表有一批记录,A用户说,这批记录是我要的,但是我只要一条,B用户也说,这批记录是我要的,我也只要一条。 是不是有点像一群男人去逛怡红院,妹子们都是目标,但是今晚只要一位,至于是谁暂时还不确定,虽然不需要抢,但是得锁单。 被动分配式,等着妈妈给你分一个。 主动挑选式,主动到姑娘们群里挑,就涉及到锁单...
背景 ZFS优化的一些基础常识. zfs模块每个参数的讲解, 包括IO调度, ARC的优化 man /usr/share/man/man5/zfs-module-parameters.5.gz 例如zfs将IO分为5个队列, 针对每个队列可以通过模块参数来控制IO调度, 例如为了提高同步写的能力, 同...
背景 最近在一个系统频频遇到负载突然飙升到几百, 然后又下去的情况. 根据负载升高的时间点对应的数据库日志分析, 对应的时间点, 有大量的类似如下的日志 : "UPDATE waiting",2015-01-09 01:38:47 CST,979/7,2927976054,LOG,00000,"process...