[未完待续] 情感词分析,维护社会和谐 - PostgreSQL,Greenplum文本挖掘、分析实践
背景
madlib机器学习SQL函数库
http://madlib.apache.org/
海量Python机器学习库
madlib python库 - pymadlib
https://pypi.python.org/pypi/pymadlib
http://pivotalsoftware.github.io/pymadlib/
海量R机器学习库
madlib R库 - pivotalR
https://github.com/pivotalsoftware/PivotalR
https://pivotalsoftware.github.io/gp-r/
文本挖掘并行计算
HybridDB for PG 支持文本挖掘
1、内置python
import library
plpython
https://www.postgresql.org/docs/current/static/plpython.html
2、内置R
https://github.com/postgres-plr/plr
3、内置java
https://github.com/tada/pljava
3、外置R、Python、Java
流式规则计算
UDF + trigger
情感词分析与回流
海明码
smlar
高效检索相似文本
《海量数据,海明(simhash)距离高效检索(smlar) - 阿里云RDS PosgreSQL最佳实践》
架构
数据源 -> GPDB (情感词挖掘, 生成词库, madlib, python, R), 人群透视, 贴情感标签 -> (词库,标签) RDS PG (海明码, 相似查询)
数据源 -> RDS PG (实时规则清洗, python清洗) -> 预警