最近这几天,在试用 @Fenng 的新产品ReadHub(readhub.me),我个人看起来ReadHub要解决的问题比较类似于Techmeme,是一个内容的快速过滤器。Techmeme是个老古董了,从当年Web2.0热潮算起已经十年过去了,一直不算太火,但在小圈子里口碑很好,有不少大佬级的忠实读者,比如扎克伯格[1]。我估计应该有不少年轻读者没听说过Techmeme的,但我和Fenng这个年纪的,肯定都对这个事情太熟悉了,当年国外的google reader share、digg、techmeme、reddit,国内的抓虾、鲜果、无觅、豆瓣九点、玩聚,等等一大票产品,前仆后继地都在试图解决类似的信息过滤的问题。尤其是当年国内博客圈关于这类产品的blog讨论,很令人怀念的一段时光。后来差不多从11年开始,国外是reddit一骑绝尘,国内是今日头条一统江湖。我早年也是干这个的,但我不想再提了,全是泪。
ReadHub有个重要的基础功能,就是合并意思差不多的内容,类似ReadHub下图这样的。
早年这些事情我都干过,所以就突然想看看类似的事情在深度学习下有没有什么新解法。搜索了一下,发现了Quora的一篇文章,“Semantic Question Matching with Deep Learning”[2],Quora现在已经不仅仅是停留在文本相似度量上了,而是要把“意图”相似的问题都识别出来,比如,“What are the best ways to lose weight?”、“How can a person reduce weight?”、“What are effective weight loss plans?” 这三个问题,都是关于“如何有效减肥”的,Quora认为这三个属于意图重复的问题,应该合并。Quora公布了一个数据集[3],包含400,000个“问题对”,并且标注好了是否重复,如下图。
所有人都可以下载这份儿数据集,训练个模型试着解一解这个问题。感兴趣的同学建议仔细读一下这篇文章。另外,Quora的机器学习平台及内容质量团队的Leader,Nikhil Garg,在QCon2016上也给出了这个问题更详细的一些资料。
1、关于这个问题相关的最新研究进展。
2、Quora自己的方案划重点。
Quora很看重这个事情,认为重复问题会造成下面这些不好的影响,
回答问题的“效能”被分散了。本来可以在一处集中讨论,会被重复问题分散到各处。
用户不得不做付出额外的代价,搜索并查看大量的问答页面。
近似的问答内容在用户Feed里面反复出现,体验很差。
无法提供一个统一的“最佳答案”页面给用户。不光用户体验不好,对搜索引擎排名也非常不利。
Nikhil Garg的PPT[4]还有很多料。
Duplicate Question Detection
Answer Ranking
Topic Expertise Detection
Moderation
结合ResysChina之前的文章“Quora是如何做推荐的?”一起看,效果更佳!
参考资料:
原文来自:ResysChina
声明:所有来源为“聚合数据”的内容信息,未经本网许可,不得转载!如对内容有异议或投诉,请与我们联系。邮箱:marketing@think-land.com
支持全球约2.4万个城市地区天气查询,如:天气实况、逐日天气预报、24小时历史天气等
支持识别各类商场、超市及药店的购物小票,包括店名、单号、总金额、消费时间、明细商品名称、单价、数量、金额等信息,可用于商品售卖信息统计、购物中心用户积分兑换及企业内部报销等场景
涉农贷款地址识别,支持对私和对公两种方式。输入地址的行政区划越完整,识别准确度越高。
根据给定的手机号、姓名、身份证、人像图片核验是否一致
通过企业关键词查询企业涉讼详情,如裁判文书、开庭公告、执行公告、失信公告、案件流程等等。