破解图灵测试之困,量化分析机器与人类智慧

云资讯 2014-06-16 10:16:29 转载来源: 网络整理/侵权必删

1.关于机器与人类智慧未来的分歧 2011年2月18日，超级电脑“沃森”打败了人类，站在了与人类智力竞赛的最高领奖台上。著名的未来学家库兹韦尔相信，由于信息技术正朝着“超人类智能”的奇点迈进

2011年2月18日，超级电脑“沃森”打败了人类，站在了与人类智力竞赛的最高领奖台上。著名的未来学家库兹韦尔相信，由于信息技术正朝着“超人类智能”的奇点迈进。当这个信息奇点在2045年到来的时候，人工智能将超越人类智慧。

但也有不少科学家认为机器智慧超越人类智慧还只是一个科学幻想，包括麻省理工的计算机学教授罗勃?米勒(Rob Miller)，Facebook人工智能实验室主任、深度学习专家Yann LeCun，都认为机器算法在一些领域的确超越了人类的能力范围。但在一些领域，例如对社会和文化的认知领域，包括不断发明各种新词汇、传播小猫的视频并点赞，或一起参与构的其他文化现象。这些是机器算法很难企及的领域。

1950年，图灵发表题为《机器能思考吗？》的论文，第一次提出“机器思维”的概念。提出假想：一个人在不接触对方的情况下，通过一种特殊的方式，和对方进行一系列的问答，如果在相当长时间内，他无法根据这些问题判断对方是人还是计算机，那么，就可以认为这个计算机具有同人相当的智力，即这台计算机是能思维的。这就是著名的“图灵测试”(Turing Testing)。

图灵测试经常用来检验机器是否具备人的智能，但图灵测试受人为因素干扰太多，严重依赖裁判者和被测试者的主观判断，而且只判断机器是否具备了人的智能，但机器与人类智慧的差距和变化速度并不能得到定量的分析 .因此往往有人宣称其程序通过图灵测试，例如2014年6月英国雷丁大学客座教授凯文?沃维克宣称一款名为“尤金?古特曼(Eugene Goostman)”的计算机软件通过了测试。但很快就被人揭发他们的测试有很大漏洞并由欺诈嫌疑，

那么有没有一种方法，能够定量检测机器智力的发展水平和速度，并与人类智力进行对比，观察可能潜在的风险并进行防范。2013年以来我们在机器与互联智商方向进行了探索，初步成果已经发表在2014年6月6日举办的ITQM会议上，下面我们将简要介绍如何定量分析机器与人类智慧的未来之争。

2.机器与人类智商通用测试方法（M&H IQ)

在心理科学中，智力(intelligence)是最难理解的概念之一。目前有关智力的定义累积起来不下百种，但一个基本共识是，智力是人们认识客观事物并运用知识解决实际问题的能力。

对人类智力的测量即智商测试由比奈西蒙最早提出，1905年比奈西蒙发表了《诊断异常儿童智力的新方法>>, 即比纳西蒙智力量表，标志着智力测验的正式出现。 1916年，美国斯坦福大学教授推孟(L.M. Ter man)将比纳西蒙量表介绍到美国并予以修订，修订之后的量表称为斯坦福比纳量表，它成为目前世界上广泛流传的标准测验之一。

因为目前机器智力发展还很不完善，不能完全套用对人的智商测试。几乎没有任何机器系统能够完成人类智商测量的操作能力测试，因此我们需要吸收以上智商测试量表的优点，设计新的智力评价体系和建立测试题库。使之能同时对机器系统和不同年龄阶段的人类进行测试。这样得出的结果将可以定量的看出机器智慧与人类智慧的差距，通过定时测试，也可以发现机器智慧与人类智慧差距的变化情况。

基于“智力是人们认识客观事物并运用知识解决实际问题的能力”这一基本认知，可以从知识的获取能力（观察能力），知识掌握能力，知识创新能力，知识的反馈能力（表达能力）等四大方面建立新的机器与人类通用智商评价体系,从这四个方面建立15个分测试，并采用德尔菲法对其赋予权重。

机器与人类通用智力量表（M&H IQ)

1 知识获取能力识别文字的能力，识别声音的能力，识别图片的能力

2 知识掌握能力常识（天文，地理，历史，物理,,,,)，翻译，计算，

3 知识创新能力排列，联想，创作，猜测，挑选，发现（规律）

4 知识的反馈能力用文字表达的能力,用声音表达的能力,用图片表达的能力

具有机器智慧的程序有很多种类，其中搜索引擎具有很强的代表性，作为目前互联网最重要的应用之一，搜索引擎代表有Google，Baidu,Bing等，这些搜索引擎目前在通过各种方式不断提高搜索引擎的智能水平。

例如 1.从只能识别文字增加到能够识别声音和图片；2引入“语义理解”技术，试图理解用户的搜索意图；3，通过深度学习，让搜索引擎可以自动识别图像中是什么物体。因此选择对搜素引擎进行智商测试并与人类进行对比将具有典型的意义。

3.世界搜索引擎排名与机器智慧的弱点

根据机器与人类通用智力量表，可以建立机器与人类通用智商测试题库（因为篇幅问题，本文不进行详细介绍），2014年5月我们利用这个测试题库对全世界50个搜索引擎和3个不同年龄阶段的人类群体进行测试得到结果如下

排名属地名称通用智商排名属地名称通用智商

1 人类 18岁 97 28 葡萄牙 sapo 12

2 人类 12岁 84.5 29 德国 lycos 12

3 人类 6岁 55.5 30 印度 khoj 10.5

4 美国 google 26.5 31 俄罗斯 Km 10.5

5 中国 Baidu 23.5 32 德国 suche 10.5

6 中国 so 23.5 33 美国 Dogpile 9

7 中国 Sogou 22 34 德国 Acoon 7.5

8 埃及 yell 20.5 35 马来西亚 Sajasearch 6

9 俄罗斯 Yandex 19 36 印度 indiabook 6

10 俄罗斯 ramber 18 37 塞浦路斯 1stcyprus 6

11 西班牙 His 18 38 希腊 Gogreece 6

12 捷克 seznam 18 39 荷兰 slider 6

13 葡萄牙 clix 16.5 40 挪威 Sunsteam 6

14 韩国 nate 15.75 41 英国 Excite UK 6

15 阿联酋 Arabo 15.75 42 英国 splut 6

16 中国 panguso 15 43 俄罗斯 Rol 6

17 韩国 naver 15 44 西班牙 ciao 6

18 俄罗斯 webalta 13.5 45 德国 fireball 6

19 美国 yahoo 13.5 46 德国 bellnet 6

20 美国 bing 13.5 47 德国 slider 6

21 香港 timway 12.75 48 德国 wlw 6

22 日本 goo 12.75 49 埃及 netegypt 6

23 日本 excite 12.75 50 所罗门群岛 eMaxia 6

24 中国 Zhongsou 12 51 澳大利亚 Anzswers 6

25 英国 ask 12 52 澳大利亚 Pictu 6

26 法国 voila 12 53 新西兰 SerachNZ 6

27 法国 ycos 12

通过测试我们发现搜索引擎在知识的掌握能力上远远超过人类，但在知识的创新能力上全部得分为0. 由于知识创新能力在通用智商测试（M&H IQ)的权重更高，因此世界范围的搜索引擎的总体智商大大低于人类智慧，最高的Google的智商值也不到人类6岁儿童的一半。

从上述研究还可以看出智能或智力是由不同的因素组成，例如天文，地理，历史等常识，数学计算，语言翻译。这些方面机器或互联网已经远远超过普通人类的能力，甚至强大到令人恐怖的地步，这也是库兹韦尔的观点能够震慑住很多人的主要原因。

但我们往往忽略，除此之外，智力还包括猜测预测，排列组合，规律发现，创新创造，伪装欺骗等更高等级的智慧因素，而在这些方面，机器和互联网表现的基本为0，更不用说与婴儿比较。

从科技的发展看，低端的智能，机器的能力突飞猛进，高端的智能，机器的能力举步维艰，数十年来毫无进展，未来的智慧世界应该是机器与人类的分工，低端重复性的智能由机器承担，高端的创造性的智能由人类来承担。过分的宣扬机器智慧超越人类智慧，正如Facebook人工智能实验室主任Yann LeCun所说“人工智能的每一个新浪潮，都会带来这么一段从盲目乐观到不理智最后到沮丧的阶段。未来学家生来就愿意做出盲目的预测，尤其是他们特别渴望这个预测成真的时候，可能是为了实现个人抱负。”，

最后需要指出，目前建立的机器与人类通用智商测试量表（M&H)还有很大的改进空间，但希望这是一个起点，能够解决图灵测试的不足和缺陷，为定量分析机器智慧能否超越人类智慧打下初步的基础。

（刘锋供网易科技专稿，转载请注明出处。文章仅代表个人观点。）

（作者简介：刘锋，互联网X实验室创始人，互联网进化论作者）

编辑：admin

标签: 破解图灵试之量化分析机器人类智慧