首页 > 资讯列表 > 科技资讯 >> 互联网

图灵机器人俞志晨:语义识别即将进入圈场景大战

互联网 2018-03-30 21:36:13 转载来源: 网易科技报道

语义识别已开始圈场景,这怕是要抢了语音的红利?3月30日 在2018中国(深圳)IT领袖峰会期间,网易科技对图灵机器人创始人兼CEO俞志晨进行了专访。俞志晨透露,2018年语义识别领域最核心的就是圈场景,这也是图灵机器人目前最核心的目标

语义识别已开始圈场景,这怕是要抢了语音的红利?

3月30日 在2018中国(深圳)IT领袖峰会期间,网易科技对图灵机器人创始人兼CEO俞志晨进行了专访。俞志晨透露,2018年语义识别领域最核心的就是圈场景,这也是图灵机器人目前最核心的目标。此前图灵机器人主要产品在儿童机器人市场,2018年下半年,图灵机器人将进入更多场景。(温泉)

以下为访谈全文,略经编辑:

网易科技:之前提到人工智能,提语音和图像识别比较多,为什么语义识别不像前两者那么广为人知?

俞志晨:图像识别,它会更前端一些,语音很多时候是会偏后端一些,后端一些支撑的技术,包括一些后端的应用,这两个其实是有些差别的。而且它的整个的技术的发展的节奏也不太一样,比如说语音,包括应用语音的整个市场发展,从时间上来看,第一语音整个的模式和它的商业化这块,其实是走得最前的,视觉主要是去年,去年的市场处于爆发期。然后语义,语义实际上还是属于第三波的产业机会。

单从大的未来来看,语义毫无疑问它的市场覆盖面肯定会比语音和视觉要大。

网易科技:这是为什么?

俞志晨:你看语音的发展契机像科大讯飞,还有包括国内出来一些语音公司,基本上都属于大概,最早第一波2000年初就开始起来了,2000年左右科大讯飞就属于发展的比较好的,上市,包括国外也是这样的。之前整个人工智能行业,早期就是以语音为主。去年、前年视觉开始爆发。

这一方面是说本身这个技术在不断成熟,另一方面是说,有安防的这个场景来托它,这么一个大的市场机会,就导致整个视觉这块的市场在催化。语义现在还处于一个沉淀、积累的阶段。我认为语义的能量还远远没有爆发出来,这是从目前整个市场的形态来看是这样的。

网易科技:为什么它还处于沉淀和积累的阶段,它为什么发展的程度没有语音和视觉那么成熟?它要解决哪几个关键问题才算比较成熟,它目前已经解决了哪几个问题,有哪几个问题没有解决?

俞志晨:刚才为什么说像语义将来的市场空间会更大?我认为语义现在技术通常有两个阶段。一方面是说很多时候它会提升效率,给to B的企业来用,这个是目前不管是语音、视觉、语义都会经历这个阶段,这个过程是必不可少的。当然我认为再往后走,整个语义整个是能够,比如客服也好,其实它的基本技术全部是围绕语义来做的。

客服是一大块,它实际上像很多的智能音箱,语音识别是一部分。但是为什么一开始大家很关注语音,因为语音它是一个很容易感受到的东西,你里面所有的功能都是基于语义来做出来的东西。

但是对用户来讲,他可能以为它是基于语音做出来的。但是实际上像智能音箱那个产品,90%的东西是在语义。但是你可能感觉这就是语音识别,就跟SIRI是一样的,因为人对这种,有一个词叫定义,定义上语音的这个词更容易带人们脑中里面产生一个更加直观的印象。语义这个词太过技术化,一般大部分的消费者其实不太容易理解语义这个词的。你看绝大部分语音交互的产品,大部分是在语义这块。

网易科技:所以您刚刚是解释它将来的市场空间更大,是因为大部分的语音交互的产品,语音交互的产品90%的工作是在语义这块,而不是语音这块?

俞志晨:这是必然的,从可辨性来看,语音和视觉的可辨性其实是固定的,它的价值就很明确,就是我要把语音信号转成文字。但是它的前期的落地性会比较容易一些,因为它目的明确,所以它的普及度更快一些。视觉也一样,视觉这块也是说通过人脸识别、物体识别去做一些视觉的事情,它的场景相对来讲比语音复杂一些,但是也是相对来讲比较明确的,就是它作为市场是比较明确的,就是是别人,识别物体。但是语义的合并性就多了,我用语义怎么来跟这些场景结合。相当于这种场景的结合性和延伸性,会比单纯一个语音识别的模块要大很多的。

就像是说我做手机的,其实毫无疑问,你说做手机公司整个市场价值规模更大,还是说基于移动互联网整个这一套里面的App市场价值更大?

网易科技:我觉得有一个比喻可能更能翻译您的这个意思,是不是就是有一千个读者,就有一千个哈姆雷特,你一段文字在那,有一千个人理解的是不同的意思,他反馈出来的行为也是完全不同的,是这个意思吧?

俞志晨:你也可以这么来去理解,因为语义实际上真的是一个,它其实目前来讲是一个偏技术化的概念。它不像语音这么通俗,但是语音其实就是说我刚举的例子,你看现在智能音箱这个硬件,硬件其实没多少钱,一百多块钱,但是里面的那些应用和那些服务技能,全部是基于语义来做的。所以语义能够延伸的价值会比,其实音箱,一个硬件或者一个语音识别的模块,其实要大很多的。但是很多时候它俩是不同的阶段,不同的模块。

网易科技:您为什么觉得它还处于积累和沉淀期?

俞志晨:因为语义不好实现,就像你刚才说的,一千个读者有一千个哈姆雷特,这个事情从技术层面来讲很难实现它。不像语音识别,刚才说语音是一个,比如我说一个字,它是一对一的关系,视觉也是一对一的关系,就是传感,感知系统是一对一的关系。但是语义是一对X,不知道多少个关系。所以这个事情本身从技术上来说很难,因为它很难,所以它结合起来的话,可能需要的工作量会大很多。

网易科技:语义识别现在发展到什么程度了,哪些问题是可以现在完全能解决掉的,哪些问题是没有被解决掉的?

俞志晨:语义通常有几个方面,从大的来看,第一个是说指令型的这种理解,比如说很多音箱,智能家居,说打开或者关闭,我们叫指令级的理解,这个是属于最低的层次,但是这个也是目前解决的比较好的。第二是问答系统。比如说很多客服,它实际上还是多轮,就是属于带有一定的复杂任务的,这个其实会更高阶一些,用在客服,用在一些其他的虚拟的一些助手这些领域。这个领域其实门槛又会更高了一些。第三个层次是在开放域的聊天系统,就跟人一样,我们闲聊,天马行空的在聊。这个从技术实现来说应该是最难的,这也是整个行业的难点,从技术上来讲,可能技术上还做不到这种突破吧。

网易科技:目前能够达到的这个和用户需求的当中,这个距离还有多远,还有哪些问题没有解决?

俞志晨:我的感觉,第一是说它的整个问题单子里面有很多个,有一堆问题需要解决。第一个是说,这种语境的理解,上下文这块的理解。比如我说我饿了,你说我真的饿了吗,其实不是。那它怎么判别是不是饿了还是不饿,还是说他到底说这句话是什么意思。

网易科技:它需要的信号不光是这个语言这个项,它需要很多环境的信号。

俞志晨:其实单纯从文字的信息抽出来的话,它永远不能够百分之百能够去理解这句话的真实意图。但是它需要去融合一些背景信息,融合一些这种环境信息,包括时间,你的一些习惯,还有包括你的一些性格,然后判定你是不是真的饿了,以及你真正的意图。语义是一个意图理解和识别的过程。

网易科技:你刚刚指的这个对语境的理解是其中的问题之一,还有很多问题没有被解决。

俞志晨:对,语境是一块,第二是说整个知识图谱体系。理论上讲,如果我们想要做通用的东西,前提是我需要去构建一个庞大的体系化的知识图谱,而且它还得具备推理功能,这个其实还是挺难的一件事情。第三个是语言的表达层面,说实话现在目前机器人的语言表达的丰富性还是不够的,语言的表达这块,怎么让它像个人一样的去表达这些语言。它能做到一定的表达的能力,比如说像如果打分的话,100分是满分,它可能能做到50分、60分,但是离我们所谓的比较好的效果还有一定的差距。

最后还有一个归于它的性价比,我们做的事情,很多时候技术跟它整个的它商业化的场景,它俩是相辅相成的。如果说这个技术投入过大,那可能这个事情就很难推。但是如果这个技术推起来还能赚到钱,这个事情就比较容易推。像语音识别一样,它已经能赚到一点点钱了,图像也一样,图像识别是它确认已经能够开始去挣钱了,而且能够商业化的还不错。

网易科技:你们之后还会如何来推动语义的应用?

俞志晨:我们跟百度的VR这块有合作。用VR结合图灵AI做了一个虚拟机器人,也就是VR版的一个机器人,就相当于Siri加一个人工形象,然后用在VR世界里面去做交互。

网易科技:那我明白了。我之前在很多场合听过图灵机器人,但是我不知道现在你们的产品是用在哪些领域,我们生活当中,哪些产品背后其实是用你们的技术?

俞志晨:很多音箱,很多机器人可以跟你对话,可以跟你互动,但背后的技术你肯定不知道是谁家的。我们原来最早一大块是在微信里面,比如微信公众账号,微信群还包括有QQ。从过去一两年也更多是向很多儿童机器人、儿童玩具这类的产品用我们的语义技术。

网易科技:你们在微信公众账号里面的应用是什么?

俞志晨:类似很多的一些公众账号,比如你可以给它发文字、发语音,然后它给你回答,它就是一个类似一个自动的个性化的群管理机器人。

网易科技:图灵机器人目前主要的竞争优势是什么?

俞志晨:第一就是语义技术,第二就是产品体验。

网易科技:你们目前在语义这块是国内第一吗?

俞志晨:我只能说我们至少在语义这个行业里面数一数二,因为第一这个事情是没法儿去验证的,你说我们比微软的好,这个事情好像也没有办法去实际证明。但是至少说从客户,从整个的各种指标来看,我们还是这个领域的,算是领先的公司吧。第二是说在一些特定场景,那肯定以我们最好,比如像儿童语义,那我们肯定是最好的。比如同样做语音和对话,微软小冰可能会用在二次元,或者是一些偏90后、95后这个群体比较多一些,我们的年龄段更小一点,我们可能是在05后,10后,就是偏儿童这块更多一些。

网易科技:我们现在在市场上能见到的那种儿童陪伴的机器人,背后绝大部分都是用的你们的语义识别技术?

俞志晨:差不多。

网易科技:任何一个牌子吗?现在我在机场看到好多商店里面不是好多那种陪伴机器人。

俞志晨:我看了一下,应该有一半了吧。

网易科技:另外一半用的是谁的?

俞志晨:有讯飞,也有用百度的,也偶尔会用其他的一些第三方的语义公司的,零零散散的。我去机场看,一半多。因为机场摆的东西不太一样,我只能说一半、一半多。

网易科技:2018年语义这块,您觉得会有什么样的一个进展,市场整体上发展到一个什么状况?

俞志晨:从市场来看,今年各家公司对于语义的关注力度会更大,很简单因为语义其实格局还是比较确认,而像科大讯飞和百度,这几家语音的市场份额是比较固定的,想抢也不太容易抢,视觉的那几家也基本上占得比较紧。

第二是说关于这个技术本身的走势来看,在今年或者明年会有更多的一些好的产品能落地,这是必然的趋势。

第三今年最重要的一个事情就是各家来圈场景,谁能够真正把场景拿下来,这是很重要的事情。因为我觉得像对于语义来讲,它跟场景有很大关联性,它目前还不像语音和图像那样做得那么通用,但是语义实际上跟场景的依赖性还是比较强。

网易科技:图灵机器人目前,你们今年主要做哪些事,今年主要的核心也是圈场景吗?

俞志晨:围绕着儿童场景来进行,儿童AI是关键。

网易科技:图灵不是已经儿童机器人这个场景不是已经圈住了吗,你们还准备圈什么场景?

俞志晨:儿童有核心场景,也还有更大的场景,比如穿戴、学习,还有包括线下,比如商超。

网易科技:你们主要会围绕儿童的市场来做吗,还是说今年你们也会做别的?

俞志晨:今年第一肯定是儿童,我们会首先把它做好。别的领域我们也会做,但是现在我估计今年下半年我们会有一些其他领域的产品,会有一些发布,到时候可以关注一下。

网易科技:目前在语义这块是不是大部分是集中在儿童这个市场上的?

俞志晨:也不是,你像客服就很多,还有做舆情,其实挺多的,做舆情分析、客服,还有做一些语音助手,包括智能家电、音箱、车载,其实都有涉及。

网易科技:为什么你们没有选择那些场景,而是选择了儿童这个场景呢?

俞志晨:我们觉得对于公司来讲,可能这个场景相对来讲更容易成熟一些,比较容易去把这个市场真的能够做得比较成熟。

网易科技:其他的比如客服好像我也听到,也挺多的。

俞志晨:但是客服这个事情比较分散,这个市场也很大,但是这个市场很分散,很难一家把它占到一个很大的市场份额,就这个意思。所以这个就跟公司的选择有关系,我们可能不太去选择做那些定制化程度比较高的领域。

网易科技:你们先做通用性比较高的?

俞志晨:对,垂直场景在我们看来是说,它的场景的通用性还是比较强的,我们会去做。

网易科技:除了儿童机器人这个市场,你们还觉得有哪几个市场也是比较不错的,符合你刚才说的比较通用的,能够大范围真正落地的?

俞志晨:VR、AR这种当然也可以,但是这个市场可能还需要再培育一下。说实话我别的关注的倒不是很多,我现在最主要就是关注儿童还有机器人领域这两块。别的车载其实也还行,车载这个市场足够大,但是车载这个时间会长一点。智能家居也不错,但是智能家居短期之内想挣到钱,可能不会那么容易。

网易科技:为啥不会那么容易?

俞志晨:我说对AI技术来讲,因为整个市场处于变革期,像音箱这个领域现在量很大,吸引大家的眼球,但是音箱想挣到多少钱,其实有点难。

网易科技:为啥?

俞志晨:因为他们在烧钱,补贴。

网易科技:他们卖的价格比较低?

俞志晨:对,因为它从源头开始就不挣钱,他们就补贴。补贴完了之后其实你,如果它整个前端不挣钱的话,后端这块也很难真正的能收到钱,这个没有那么快。

网易科技:你们会进入哪些新的领域?

俞志晨:我们还是围绕服务机器人的方向去走。

网易科技:但是就不光是儿童了?

俞志晨:别的可能会涉及一下,但是现在,可能到下半年我们会明朗一些,现在还在做一些验证。

标签: 图灵 机器人 俞志 语义 识别 即将 进入 场景 大战


声明:本文内容来源自网络,文字、图片等素材版权属于原作者,平台转载素材出于传递更多信息,文章内容仅供参考与学习,切勿作为商业目的使用。如果侵害了您的合法权益,请您及时与我们联系,我们会在第一时间进行处理!我们尊重版权,也致力于保护版权,站搜网感谢您的分享!

站长搜索

http://www.adminso.com

Copyright @ 2007~2024 All Rights Reserved.

Powered By 站长搜索

打开手机扫描上面的二维码打开手机版


使用手机软件扫描微信二维码

关注我们可获取更多热点资讯

站长搜索目录系统技术支持