本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载。
阿里云栖大会刚刚结束。作为中国最大的云平台,除传统云服务(如计算、存储、大数据、安全、通信)外,阿里云的触角已经延伸到 AI 技术领域。
目前,阿里云上的人工智能 ET 板块已经包含机器学习 PAI、语音识别与合成、人机对话、人脸识别、图像识别、以及印刷文字识别六大模块。
除这六大模块之外,近期,阿里云还将上线自然语言理解(NLP)模块。项目总负责人司罗也在今年云栖大会的现场分享中透露了这一消息。机器之心现场采访到司罗,与他谈了谈阿里在 NLP 技术上的底气。
对外开放技能:突破阿里自身场景的局限
从今年六七月份开始,本着阿里 iDST 部门对外赋能的使命,其中,由司罗带领的 NLP 团队开始着手「上云」。
与此前的对内服务大为不同,其中最主要的变化便是场景切换。阿里主攻电商、金融、娱乐场景,而云上的客户却涉及到各行各业。对于现阶段各知识领域还存在显著隔膜的 NLP 技术来说,存在不小的挑战。
但实际上,在这次「上云」之前,团队已经有对外服务的经验。
OpenSearch 是阿里云推出的一款云搜索服务,调用 OpenSearch 的用户能够让自己的网站、应用拥有搜索功能。使用这项服务的用户涵盖母婴、诗词、菜谱等五花八门的领域,给司罗团队提供了很好的练兵场,也是试金石。
对于 OpenSearch 上的分词技术,团队提供一套基础算法,并在算法上构建了自适应的模型体系,如金融、社交、新闻等。团队会根据用户网站不同的组织层次需求,为用户挑选最合适的模型,并同时提供产品可视化的配置,用户可以在上面独立配置自己的词表。
除 OpenSearch 外,团队在专有云方面也已经对外服务客户,如通过新闻、用户评价等帮助茅台酒厂进行舆情分析,帮助公安、法院等部门更快地查找备案资料等。
阿里云上 NLP 技术的输出将采用类似 OpenSearch 的模式,但服务类别将有所增加。在「上云」后的第一个阶段,阿里 NLP 提供的服务将包含电商实体识别、情感分析、反垃圾、地址解析四个底层技能点。
服务分几个层次提供,对于已经拥有某些模块的技术,且需要其他模块技术的公司(例如有分词技术但缺乏依存关系技术的互联网公司),阿里云 NLP 将提供技能点级的支持;对于缺乏 NLP 应用级技术的公司,例如反垃圾、情感分析等,阿里云 NLP 提供应用层面的支持;对于需要系统级解决方案,例如搜索、推荐系统的客户,阿里云 NLP 也有对应的服务模式。
值得一提的是,iDST NLP 的团队刚刚获得了 IJCNLP(国际联合 NLP 大会)语法纠错评测第一名的成绩。司罗认为这是对阿里 NLP 技术的一次有力证明。因为语法纠错任务涉及到很多自然语言的基础技术,如分词、句法分析、词法分析、依存关系以及语义分析等,对团队的综合技术实力是一次考验。
司罗
司罗认为,自然语言处理是实现强人工智能的非常重要的一环,而且重要性会越来越显现。「感知层面的事情越来越成熟了,认知层面也得跟上了。」他说。
但在他看来,认知层面的事情依然路漫漫其修远兮。他很爱举的一个例子是,你问一个聊天机器人「喜欢吃辣吗?」它可能会说「辣的那么恶心,我才不喜欢。」你接着问它「你喜欢吃四川菜吗?」它可能又回答你「四川菜是我的最爱!」
目前聊天机器人绝大部分是数据驱动,司罗认为要实现真正的语义理解还需要 5-10 年的跨越。「语义理解这回事儿现在学界都还不 OK 呢。」他说。另外现在的 NLP 技术鲁棒性不够,对于新闻语料来说效果不错,但对于日常对话,效果就很差。
虽然有很大的鸿沟摆在面前,但司罗认为这是必须要跨越的。「因为 NLP 技术是达到强人工智能的路上必须攻克的关键节点。」司罗说。
从「业务」到「技术」:我们获得了同事的认可
在将 NLP 拿到阿里云上对外开放之前,司罗带领的 NLP 团队其实走过了一段并不容易的「从技术到业务的沉淀之路」。换句话说,他们的技术,首先必须得到阿里内部各个业务线的使用与认同。
毫无疑问,司罗是阿里巴巴数据科学研究院(iDST)的几位元老之一,但在 2015 年 7 月,iDST 暂时解散,包括司罗在内的科学家们都必须深入到业务部门实地考察「钱是怎么来的」,这段经历被 iDST 的创立者兼现任院长金榕称作「上山下乡」。
当时,司罗跟随金榕进入搜索事业部。今年 3 月 iDST 宣布重组时,司罗才被任命 iDST NLP 团队负责人。
当记者用「风雨飘摇」一词来形容 iDST,司罗笑了,说「『风雨无阻』可能更合适一些。」虽然体系架构一直在变化,但司罗认为,阿里的 NLP 技术一直在积淀。
在一个以业务为导向的公司积淀技术并不容易。司罗回忆道,曾经集团各条业务线都有自己的 AI 实力,各做各的。由于在业务线中,AI 模块只是业务链条中的一环,难免会有「这一环好用就行,赶紧去做下一环」的情况。工作 quick and dirty 地做完,不仅不利于产品的优化,对集团内部人力财力也是一种浪费。
iDST 的出现就是为了解决这一问题。大约一年前,马云提出「大中台、小前台」战略,希望各个业务线在一个强大的、动态的支撑下,仅用几个人手就能搭建起稳定的前台服务。金榕在曾经一次接受机器之心的采访中提到,希望能打造 AI 技术的基础模块,从底层驱动创新,支持集团各业务线的 AI 技术,司罗正在做的就是这样一件事情。
这有些类似项目制与产品制的区别。项目制随着业务的爆发,所需人力也随之爆发,且项目间的经验很难复用、累积。产品制更轻、更巧、更专,只需对不同的项目需求做少量定制化,在成本方面更加可控,在技术方面也能有所积累。
2016 年 10 月,对于司罗以及阿里 NLP 来说是一个重要的时间节点。此前,司罗所带领的 NLP 业务团队忙于承接一个个「项目」,先后参与过「聚划算」、「AliOS」、「淘宝头条」、以及淘宝唯一能够主动触达用户的渠道「消息推送」等项目。
那时候,司罗领到任务——将 NLP 的「大中台」建立起来,也就是说,集团希望在 NLP 技术方面,各业务线不再各自为营。
此时,两大问题摆在他面前:如何说服团队成员从「业务」转向「技术」,以及如何让其他业务线使用他的团队的技术。
这让他一度很头疼。对于团队成员,做业务涉及到上亿的引流成交量,成员能够从中获得很大的成就感。司罗和队员一个个聊,「我跟他们说,大家都不会在一个业务上做一辈子,等你走的时候,业务是不会跟你走的,但是你自身拥有的技术是会跟你走的。」司罗没有用太多高大上的说辞来说服他的队员。
司罗认为,能留在一个人身上的有两样东西,一个是技术的积淀,另一个是人与人互相的关心与信任,俗一些的说法就是人脉。而这种关心与信任正是司罗团队后来在集团内部拥有一百多个使用其技术的业务方的基石。
「用你的技术大家会有顾虑。」司罗谈到,「首先业务方会想,我为什么要用你的?用你的你过几个月不支持了怎么办?用你的是不是证明我做的不好?等等很多问题。」
人之常情。「我们没有行政命令的协助,如果 CEO/CTO 下令说所有人都要用我们的技术,那当然好推广。」对于这些看似不可解的矛盾,司罗坦言,这种时候只能用实力说话。团队在算法准确率、工程稳定性、甚至支持文档的力度、用户答疑等方面都下足了功夫。
团队在集团内部的推广动作依赖使用者的正反馈。司罗说,最开始的几个攻坚战一定要打好,比如给优酷土豆做的分词,团队投入了很大的力量,优化了原本的分词结构,取得了集团内部的信任,也给团队以信心。同时 iDST 和搜索工程技术质量部门、翻译、神马搜索等团队在工程和多语言等方面展开合作,希望能够共同优化算法。
「技术有通用性,我把最开始的技术移植给其他业务方,越来越多的业务方加入,团队的成就感也就越来越大。这是一个正反馈的过程,对吧?」他笑着说道。
司罗举例说,电商场景的分词一直是棘手的问题,因为每天都会涌现层出不穷的新品牌、新产品、新型号。团队创新性地将用户搜索时输入的字段用在分词过程中。
例如用户搜索「索尼电视」,系统不知道「索尼」是一个品牌名。但当系统发现用户在搜索结果中点击了「索尼 Led 电视」这一选项时,就会意识到「索尼」是一个牌子。此举将电商分词的准确率提高了 10-20%。
「业务方没有理由去做这种层面的精细优化。」司罗说,「他们所在的单一业务线可能每天只有 20 万的调用量,却要分析几十亿的搜索与点击数据,这对他们来说不值得,也没有这么大的精力。」
2017 年 1 月份,司罗团队的 NLP 技术开始上线供集团内部使用。据他介绍,当时,团队还是有点担心没有人买账的,同学们不确定自己下的功夫能不能产生价值。
好在结果是令人惊喜的,司罗说,「我们蛮幸运的。」从 1 月到现在为止 9 个月的时间里,司罗团队的技术支持了几乎整个阿里生态,包括电商、蚂蚁金服、菜鸟、大文娱等。目前业务方有 100 多个,日调用量达 400-500 亿。
司罗回忆道,今年三月,阿里上个财年结束时,团队做了一次简单的推广,吸引了最初的 10-15 个业务方。此后业务方数量的增长速度开始加快,五月份时已经有四五十个;到八月份有 80 多个;在九月底,半个财年结束时,团队的业务方成功突破一百个。
司罗认为这是一个非常振奋人心的过程,给团队打足了勇气:
「我们内部有一个平台用户群,已经有 300 多人。大家在这个交流群里对平台的使用以及算法技术问题进行讨论,群里一直都很热闹,这让我很高兴。」
从某种程度上来说,司罗认为恰恰是从集团内部获得的认可,让整个团队有勇气将自己的技术放到阿里云上,为更多的企业用户去赋予 NLP 技能。
原文来自:机器之心
声明:所有来源为“聚合数据”的内容信息,未经本网许可,不得转载!如对内容有异议或投诉,请与我们联系。邮箱:marketing@think-land.com
支持全球约2.4万个城市地区天气查询,如:天气实况、逐日天气预报、24小时历史天气等
支持识别各类商场、超市及药店的购物小票,包括店名、单号、总金额、消费时间、明细商品名称、单价、数量、金额等信息,可用于商品售卖信息统计、购物中心用户积分兑换及企业内部报销等场景
涉农贷款地址识别,支持对私和对公两种方式。输入地址的行政区划越完整,识别准确度越高。
根据给定的手机号、姓名、身份证、人像图片核验是否一致
通过企业关键词查询企业涉讼详情,如裁判文书、开庭公告、执行公告、失信公告、案件流程等等。