[未完待续] 情感词分析,维护社会和谐 - PostgreSQL,Greenplum文本挖掘、分析实践

less than 1 minute read

背景

pic

madlib机器学习SQL函数库

http://madlib.apache.org/

海量Python机器学习库

madlib python库 - pymadlib

https://pypi.python.org/pypi/pymadlib

http://pivotalsoftware.github.io/pymadlib/

海量R机器学习库

madlib R库 - pivotalR

https://github.com/pivotalsoftware/PivotalR

https://pivotalsoftware.github.io/gp-r/

文本挖掘并行计算

HybridDB for PG 支持文本挖掘

1、内置python

import library

plpython

https://www.postgresql.org/docs/current/static/plpython.html

2、内置R

https://github.com/postgres-plr/plr

3、内置java

https://github.com/tada/pljava

3、外置R、Python、Java

流式规则计算

UDF + trigger

情感词分析与回流

海明码

smlar

高效检索相似文本

《海量数据,海明(simhash)距离高效检索(smlar) - 阿里云RDS PosgreSQL最佳实践》

架构

数据源 -> GPDB (情感词挖掘, 生成词库, madlib, python, R), 人群透视, 贴情感标签 -> (词库,标签) RDS PG (海明码, 相似查询)

数据源 -> RDS PG (实时规则清洗, python清洗) -> 预警

Flag Counter

digoal’s 大量PostgreSQL文章入口