在5月初举办的Google I/O大会上,Google展示了令人瞠目结舌的Google Duplex人机对话功能;而在本周召开的伦敦AI大会上,微软CEO萨提亚·纳德拉展示了“小冰”具有全双工打电话的能力。小冰是由微软研发的对话式人工智能,现在她已经拥有了5亿用户,可以在微信等16个IM平台上和用户对话
在5月初举办的Google I/O大会上,Google展示了令人瞠目结舌的Google Duplex人机对话功能;而在本周召开的伦敦AI大会上,微软CEO萨提亚·纳德拉展示了“小冰”具有全双工打电话的能力。小冰是由微软研发的对话式人工智能,现在她已经拥有了5亿用户,可以在微信等16个IM平台上和用户对话。可能国内很多人对小冰并不陌生,她是人工智能界的网红,刚刚发布了自己作词演唱的新单曲,又摇身一变成了诗人,帮人类创作诗歌,不久还将发布与人类联合创作的定制化儿童故事。
早在谷歌之前,小冰已具备全双工语音交互技术(Full-Duplex Voice Sense),实现“打电话”的能力,不同于谷歌,小冰的全双工技术已完成产品化落地。据了解,自2016年8月起,在明确告知用户的前提下,小冰已经和人类用户累计完成了超过60万通全双工电话。微软还与小米生态链合作推出Yeelight语音助手,据微软称,这也是市面上首个使用了全双工语音技术的IoT产品。微软此前还公布,用户与Yeelight语音助手中的小冰最长的一次对话进行了6个小时之久,这场对话共涉及8个领域,53个话题,小冰还帮助用户完成了16个任务。在本次大会上的一段小冰与用户交谈的视频中,小冰能够用全双工语音和用户电话交流,主动关心对方,还顺便帮用户完成了设定闹钟、提醒天气等任务。
演示视频观看:点此链接。
但可以发现与谷歌Duplex相比,小冰的语音自然度落了下风。在Google I/O大会现场,新一代谷歌语音助手不仅顺利完成了电话预约理发店的全过程,而且在交谈中还出现了“嗯哼”这样的语气词,引起了全场的尖叫。据了解,谷歌将在今年夏季与合作厂商发行这种搭载了“谷歌语音助手”带显示屏的音箱。
微软和谷歌,不约而同地相继选择了全双工的对话模式,让人工智能和人类如通电话一般地进行双向交流。相对地,以亚马逊Alexa、苹果Siri为代表的智能语音助手所使用的技术则是“半双工”,这就像往两个面对面交流的人手里塞了两只对讲机,让他们通过对讲机一问一答,并且,他们之间的对话只能围绕一个确定的任务或问答进行。半双工模式下人工智能也可以对答如流,但这并不代表半双工是一种自然的人机交流方式。人永远是提问者,而智能语音助手负责寻找答案,这也是很多人认为使用智能音箱很费劲的原因。
不过,同样选择了全双工语音的微软和谷歌,技术上的实现方式并不相同。
谷歌Duplex的核心是循环神经网络,值得注意的,Duplex的训练数据来自一些具体的场景,例如预定餐厅,让AI能够充分地学习这些封闭场景音频中的特征、对话历史、对话参数(比如要预定的服务,当前时间)等等。在系统运行中,输入语音先经过自动语音识别系统(ASR)处理,生成的文本会与上下文数据以及其它输入一起输入RNN网络,生成的应答文本再通过文本转语音(TTS)系统读出来。谷歌还花费了数月时间采集真人声音,训练出声音和语调与真人几乎一致的TTS语音系统。在语言理解、交互、时间控制、语音生成上的技术突破帮助谷歌Duplex获得了相当真实自然的语音,也能够出色地帮用户完成某项具体的任务。
微软小冰的学习电话交流的过程更为漫长。最初小冰的设定是以EQ为发展方向的对话式人工智能,过去几年中,小冰在五个国家的IM平台上和人类进行了大量的对话交流,积累了超过300亿轮的超大规模对话数据,这让生成模型得以应用。微软此前表示,小冰之所以能做到区别于其他产品的长程语音,其中的关键之一便是小冰应用了生成模型,可以根据用户的问题自创回应,区别于以往通过理解用户的问题,寻找最合适的话作为回答的方式。此外,微软还应用声音场景识别、节奏控制器等技术增加小冰对话的真实感。这些技术让小冰可以针对开放领域的任意话题展开对话,还能够主动控制对话节奏,甚至引导对话方向。
谷歌在Google AI博客中表示,在研究中,把Duplex的功能限制在封闭的场景中是非常重要的,这些场景涵盖的内容非常少,可以让AI充分地学习这些场景中的对话。也就是说,谷歌Duplex良好的对话表现只能限定在某些特定的场景和具体的任务中,一旦对话偏离了场景和任务,Duplex就无法施展拳脚。
与谷歌不同的是,小冰的对话不局限于某个场景或任务,这或许在某种程度上限制了她的语音自然度,但也让她可以和人类谈论任何一个话题,而其中那些看似无用的闲聊,可能经过几轮对话之后引发出一个关键的任务需求。从技术实现来看,显然开放领域的聊天似乎更困难一些,AI并没有像人类那样举一反三的能力,若要让AI学会聊一个话题,就必须对它进行这一话题的训练。
微软和谷歌相继推出全双工语音技术,似乎预示着人工智能业界的顶级公司正在朝同一个方向前行,要让人机交互真正转变为人机交流。但是,全双工技术谁先谁后发布,技术上谁长谁短,当下或许还没有必要争夺。不管是谁家的AI,距离产品真正的广泛应用,还任重而道远。
声明:本文内容来源自网络,文字、图片等素材版权属于原作者,平台转载素材出于传递更多信息,文章内容仅供参考与学习,切勿作为商业目的使用。如果侵害了您的合法权益,请您及时与我们联系,我们会在第一时间进行处理!我们尊重版权,也致力于保护版权,站搜网感谢您的分享!