ReadHub及近似内容识别

来源： SDK.cn 类型：业界新闻发布：2017-05-11 11:57:50

最近这几天，在试用 @Fenng 的新产品ReadHub（readhub.me），我个人看起来ReadHub要解决的问题比较类似于Techmeme，是一个内容的快速过滤器。Techmeme是个老古董了，从当年Web2.0热潮算起已经十年过去了，一直不算太火，但在小圈子里口碑很好，有不少大佬级的忠实读者，比如扎克伯格[1]。我估计应该有不少年轻读者没听说过Techmeme的，但我和Fenng这个年纪的，肯定都对这个事情太熟悉了，当年国外的google reader share、digg、techmeme、reddit，国内的抓虾、鲜果、无觅、豆瓣九点、玩聚，等等一大票产品，前仆后继地都在试图解决类似的信息过滤的问题。尤其是当年国内博客圈关于这类产品的blog讨论，很令人怀念的一段时光。后来差不多从11年开始，国外是reddit一骑绝尘，国内是今日头条一统江湖。我早年也是干这个的，但我不想再提了，全是泪。

ReadHub有个重要的基础功能，就是合并意思差不多的内容，类似ReadHub下图这样的。

早年这些事情我都干过，所以就突然想看看类似的事情在深度学习下有没有什么新解法。搜索了一下，发现了Quora的一篇文章，“Semantic Question Matching with Deep Learning”[2]，Quora现在已经不仅仅是停留在文本相似度量上了，而是要把“意图”相似的问题都识别出来，比如，“What are the best ways to lose weight?”、“How can a person reduce weight?”、“What are effective weight loss plans?” 这三个问题，都是关于“如何有效减肥”的，Quora认为这三个属于意图重复的问题，应该合并。Quora公布了一个数据集[3]，包含400,000个“问题对”，并且标注好了是否重复，如下图。