Recent Posts

PostgreSQL结合余弦、线性相关算法 在文本、图片、数组相似 等领域的应用 - 1 文本(关键词)分析理论基础 - TF(Term Frequency 词频)/IDF(Inverse Document Frequency 逆向文本频率)

8 minute read

背景 很多网站有标签的功能,会根据网页自动生成标签,标签实际上就是该网页的关键词,比如一个卖手机的网页,那么标签是如何生成的呢? 在一篇文档里面,是不是出现越多的词,就越是关键词呢? 比如在中文里面的、是、我、你可能出现次数是比较多的,它们很显然不是关键词,这些属于stop word,是需要被忽略的。 ...

从电波表到数据库小程序之 - 数据库异步广播(notify/listen)

2 minute read

背景 小时候就梦想有个酷酷的电波表(虽然现在还没有拥有),不过电波表和PostgreSQL有什么关系呢?听我道来。 http://baike.baidu.com/view/1124741.htm 电波表内置高感度小型天线,接收标准电波进行自动对时,因而可以实现时间上的精准。在国际上,德国、英国、美国、日本...

从微信小程序 到 数据库小程序 , 鬼知道我经历了什么

3 minute read

背景 微信小程序最近比较火,大概以后大家都不需要安装程序了,直接在微信中调用运行。跑在微信里的小程序类似一个虚拟机或者一个Docker容器,这是腾讯要分APP store蛋糕的节奏吗? 从技术角度来看,微信小程序带来了几个好处,不需要安装软件,用户不需要进行软件的版本管理,节省了一点点手机的空间,同时还降低了流...

(AR虚拟现实)红包 技术思考 - GIS与图像识别的完美结合

2 minute read

背景 作为搞IT的小伙伴们,对虚拟现实(AR)应该并不陌生,这次带来了一个很有趣的功能,虚拟现实与藏红包结合起来。 简单介绍一下这个业务,然后我们再来思考背后的技术。 (AR虚拟现实)藏红包、找红包 玩法介绍 想象一下,你可以把你的红包藏在世界各地的任意角落,让全世界的人来找红包,是不是一件很有趣的事情。 ...

导购系统 - 电商内容去重内容筛选应用(实时识别转载盗图侵权?) - 文本、图片集、商品集、数组相似判定的优化和索引技术

10 minute read

背景 同一个热点事件,可能有很多的媒体报道。 同一篇好的文章,可能被多人转载。 一个商品、或者同一堆商品,可能会被诸多广告平台、导购平台推送。 导购网站、新闻媒体、技术论坛、搜索引擎,充斥着各种李逵、李鬼。相似甚至内容完全相同的文章或者图片集等。 不涉及利益时,这些都不是大问题。一旦涉及利益,这些问题可能...

PostgreSQL psql 安全设置数据库用户密码的方法之一

2 minute read

背景 密码有多重要就不需要多说了,但是你知道密码有多少可能泄露的渠道吗? 大多数人可能觉得在设置好密码后,保管好不被泄露就可以了。 但是你有没有想过,在设置密码的过程中就泄露了呢? 比如数据库中设置用户密码,有多少种可能泄露的渠道? 比如,我们在修改数据库用户密码时,可能经历这么长的流程才能最终将新的密码...

Linux cgroup - memory子系统讲解

11 minute read

背景 Linux是一个很好的多用户平台,但是当我们在Linux中运行多个资源耗费很大的应用(比如数据库)时,应用间的资源争抢可能就比较严重。 那么有什么好的方法可以隔离不同应用之间的资源使用呢?cgroup是一个不错的选择。 cgroup目前已支持 cpu, 网卡, memory, io, 硬件设备 的隔离,...