首页 > 资讯列表 > 科技资讯 >> 智能设备

准确率高达93.4% 牛津大学人工智能系统会唇读

智能设备 2016-11-08 23:15:39 转载来源: 网络整理/侵权必删

由于唇语解读技术的出现,我们在体育比赛中越来越多地看到这样的画面:或是这样的:事实上,即使是专业的唇语解读者,其准确率也只有20%-60%。所以很多时候,一知半解的“专家”们基本也是依靠脑洞强行解读的

由于唇语解读技术的出现,我们在体育比赛中越来越多地看到这样的画面:

牛津大学人工智能系统会唇读:准确率高达93.4%

或是这样的:

牛津大学人工智能系统会唇读:准确率高达93.4%

事实上,即使是专业的唇语解读者,其准确率也只有20%-60%。所以很多时候,一知半解的“专家”们基本也是依靠脑洞强行解读的。被专家们坑害多次后,球员们只好采取这种令人尴尬的方式交流了……

不过,牛津大学最新研发的人工智能系统,有望大幅提高唇语解读的准确性。

牛津大学人工智能系统会唇读:准确率高达93.4%

根据牛津大学新发表的论文,这个叫LipNet的人工智能系统,能够将视频中人物的嘴巴活动与其台词进行匹配,准确率高达93.4%。而在此之前,即使是最先进的逐字对照系统,其准确率也只有79.6%。

研究人员表示,他们换了一种思维方式,不是通过可视音素(语音中最小的不可再分解的单位)系统来训练AI识别每一种唇部活动,而是让它能够一次性处理整个句子。这就使得AI能够自己学习字母与唇部细微变化之间的对应关系。

在训练过程中,研究人员向AI展示了近29000个标有正确文本的视频,每个视频长度为3秒。为了了解人类唇语解读者在面对同样的任务时的表现,该团队还招募了三名实验人员,让他们随机观看了其中的300个视频。

lipnet

结果显示,参与实验的人员平均错误率为47.7%,而AI只有6.6%。

不过,这不并代表AI就能准确读懂唇语了。因为在训练时,研究人员使用的视频都是经过精心策划的,视频画面光线充足,每个人都正对镜头,且吐字清晰、发音标准,台词也是类似于“立即将蓝色放入m1”这种包含命令、颜色、介词、字母、数字等格式的句子。

如果让AI去解读YouTube上随机挑选的视频,效果可能不见得比人类好多少。

值得一的是,这个项目得到了来自 Alphabet旗下的DeepMind实验室的资助。

OpenAI的杰克・克拉克(Jack Clark)认为,LipNet还需要进行以下三个方面的改进,即通过大量真实环境中人物的讲话视频,让AI能够从多个角度阅读嘴唇,并增加短语的类型。

当然,开发这样一个AI可不是为了解满足球迷和媒体的八卦之魂的,听力受损人群才是这一工具的目标。

如果唇语解读AI能够得到完善,它将帮助数百万听力障碍者“听懂”其他人的对话。此外,通过听取视频快速生成准确的字幕也是其可能的应用领域之一。

标签: 准确率 高达 93.4% 牛津 大学 人工智能 系统 会唇


声明:本文内容来源自网络,文字、图片等素材版权属于原作者,平台转载素材出于传递更多信息,文章内容仅供参考与学习,切勿作为商业目的使用。如果侵害了您的合法权益,请您及时与我们联系,我们会在第一时间进行处理!我们尊重版权,也致力于保护版权,站搜网感谢您的分享!

站长搜索

http://www.adminso.com

Copyright @ 2007~2024 All Rights Reserved.

Powered By 站长搜索

打开手机扫描上面的二维码打开手机版


使用手机软件扫描微信二维码

关注我们可获取更多热点资讯

站长搜索目录系统技术支持