评估机器的智商,认知智能可以做什么?(一)
录入者:15959541500 人气指数: 次 发布时间:2021年04月24日
出品:新浪科技《科学大家》、墨子沙龙
撰文:周熠 博士、上海脑科学与类脑研究中心类脑计算研究组研究员
近些年兴起了一些有趣的测试服务,其中就有智力测试。智力测试一度在年轻人和学生家长之间盛行,大家对于自己的智商能得多少分非常好奇,一度形成了非常典型的社会现象。目前市面上存在的智力测试一般通过受试者回答测试题中有关语言表达、理解能力、逻辑和记忆等方面的问题得出一个表征智力水平的分数。而这样一项对于人类来说可有可无的测试,对于人工智能来说却可能是一项十分有必要的衡量标准。
尽管科技迅猛发展的这几年,人工智能在快速学习,不仅可以驾驶计算,甚至可以从事写诗作画等艺术“创作”了。但毋庸置疑的是,测试机器的智商,也就是认知智能,与测试人类的智力水平大有不同。那么要想知道机器的智商几何,拢共分几步?了解人工智能的智商,又对技术进步有着什么样的意义?
评测机器认知智能
评测机器的认知智能,这个事情听上去很简单,但事实上相当困难。早在1950年, 人工智能的祖师爷图灵就提出了著名的图灵测试。简而言之,人类评委和事先不知道是机器还是人的对象交谈,如果人类评审不能够区别交谈的对象是机器还是人,那就认为这个机器具有人的智能。
但是,图灵测试值得商榷。2014年,有一个叫做Eugene Goostman的程序,号称通过了图灵测试,超过1/3的人类评委觉得它就是一个乌克兰的小孩,不是机器。但是,这在学术界引起广泛争议。这是因为某种意义上可以用一些欺骗的方法来做这个事情,比方说可以不回答问题,反过来问问题引导人类评审专家。例如,当面对较难的问题的时候, 可以回答“我不知道”,而反过来问人类评审一些相关的“闲话”。很多时候人类评审的问题可能就在这个过程中被马马虎虎地应付过去了,尤其在机器设定是一个非英语母语的小孩的时候。无论Eugene Goostman是否通过了图灵测试,这至少表明,以图灵测试作为评测机器的标准值得讨论,已经有科学家在这方面展开了很多深入的思考。
另外的一个候选者是智商测试,估计很多人都做过。用机器来做智商测试会怎么样?这是一个挺有意思的事情。自动智商测试没有想象的那么简单,对现在的人工智能技术提出了很大的挑战,既需要涵盖人工智能的诸多方向,也需要融合之前提到的各个流派,而且智商测试本身就有一定的通用性。因此,我们现在正在进行这方面的课题研究,也举办了相应的国际比赛,欢迎大家关注。当然,我们也不认为机器智商测试做得好,就一定代表机器比人强。但我们认为这一定能促进机器在认知智能领域的发展。
数学自动答题
很多人都有这样的感受:所有的学科里面,学的最吃力、最痛苦的莫过于数学。机器到底是不是可以解数学题,跟人比起来,能力到底如何?这也是个挺有意思的问题。我们在这方面也进行了一些尝试。
首先大家可以先思考一个问题:关于机器和机器之间的交流的问题。中国人和中国人之间用中文;英国人和英国人之间用英语,那机器和机器之间交流到底该用什么?机器语?对,就是机器语。这就是我们做的工作的出发点。我们定义了一套关于数学的机器语言。这样,机器和机器之间就可以通过这套语言实现所谓的交流和答题。
这个机器语言长得就像图中这个样子,主要是基于逻辑学的。细节不重要,重要的是机器确实是可以有一套机器语言的,可以通过这套语言相互交流,表示知识,学习知识,从而解决问题。上图中就是一个很简单的题目,等差数列求通项公式的问题。题目的自然语言对人来说可以轻易理解,但是对于机器而言就是一堆ASCII码,机器是不懂得这个题目讲的些什么的。因此,我们需要把自然语言的题目翻译成机器能理解的机器语言,也就是图片的中间部分。因为机器语言是事先定义的,所以机器能够懂这个语言。在把自然语言翻译成机器语言之后,机器就可以调用规则库来解数学题了。
跟人一样,机器解题也是通过一步一步调用定理。刚开始的时候,选取一条规则执行,提取结果之后会得到新的知识,新的事实,然后把它加到原来的事实库里面,又可以继续推。一步一步重复这样推演步骤,机器就能解答数学题。
之前我们和讯飞有合作高考答题。我们选取其中比较难的数列来做,基本上在解题部分可以做到90%到。如果工程量足够的话,估计可以做到95%。但也就差不多就能这样了。为什么?下面这张图能够稍作解释。
高考数学题中一大部分的题目可以通过很简单的模板来解决。假设知道了数列的几项,求它的通项公式,这就是个模板,以后所有的同类型题目都可以完成了。这在数学题里面就是那种特别简单的送分题。如果把所有的题都考虑的话,发现模板越来越困难,因为它是题目和题目之间的组合、形式和形式的组合,它会非常复杂。你写了两千个、一万个都不能穷举所有的情况。
所以下一层就需要用到规则。简而言之,规则就是把数学定理用机器语言写给机器,机器就懂了这些数学定理,然后通过这些数学定理的组合,就可以解决数学题目。这样,大致上就能够搞定高考题目了,因为高考题目通过这些组合也就差不多(大约90%到95%)可以囊括了。
在规则之上是方法,有很多不同的数学的方法,比方说归纳法、反证法、分情况讨论等等。现在我们正在尝试用数学的方法来解数学题。我们也相信,如果方法完全做到位的话,大致能够做竞赛题。但这还不够。因为数学家肯定不是通过这些死的方法来开展研究的。方法都是死的,数学家还有很多灵感和直觉,来发现新的定理和概念、定义新的东西。这个层面就可能需要更深的人工智能理论和技术了。某种意义上,数学自动答题这个事儿,它不是一个事儿,它是很多不同层次的事儿,而且现在的技术做得并不怎么样。
事实上,在解题方面虽然有可能做到95%,但是在题意理解(即把自然语言翻译成机器语言)这一步,反而会做得比较差。对于比较封闭的全是用数学语言来写的题目,大致可以做到整题理解正确率80%-85%,工程做全大致能到90%。但是对于开放的题目,比如应用题或自定义新概念的题目,那题意理解就会相当的差。例如,有一道题目是:毛主席有一句诗词,“坐地日行八万里”,请问地球的周长是多少?后半句机器还能理解,前半句就很难了,而把前半句和后半句联系在一起,机器基本束手无策。
面临的痛点
认知智能的能做的事情还有很多,比如智慧医疗领域中,用认知智能的方法去帮助抑郁症患者,进行早期诊断等等。
那么在通过认知智能做这些事情的时候,最大的痛点是什么?我的答案是如何真正融合基于神经网络的连接流派和逻辑的符号流派。这是人工智能的两个特别主要的流派,但是它们的假设非常不一样。一个是神经元的,是隐式的;一个是显式的,符号的。它们两个到底怎么能够真正的融合在一起?我觉得答案是通用人工智能,也是强人工智能的一个充要条件。不过目前这方面的探索还很不够。
大家都知道,人脑肯定是连接的,生物神经网络有百亿级的神经元。感知某种意义上也是连接的,这也是为什么深度学习在感知智能上能够做得这么好的一个很重要的原因,因为它很适合这个事情。但是计算机的本质,其实是符号的。计算机起源于逻辑学,计算机的几个重要的基础,包括可计算理论、编程语言、数字电路,都基于逻辑和显式符号。所以某种意义上,计算机的本质是符号的。认知和交互,大部分也是符号的。比方说,我们现在通过中文这种符号语言在交流,而机器程序,用C语言也好,Python也好,是通过一种机器的符号语言在交流。机器跟机器之间的交流,也是一种机器符号语言。认知和交互某种意义上主要是基于符号的。
对于人来说,这两个完美的统一到了一起,我们用生物神经网络说着各种符号语言,用的还特别好。但是对于机器来说,这是个特别大的痛点,特别困难的问题。
借鉴脑科学与神经科学的方法来做人工智能的问题是一个思路。我们的大脑,左脑管抽象思维,右脑管形象思维,这两个完美的结合能够做很多事情。如果能够借鉴脑科学和神经科学的一些方法,是不是能够真正让人工神经网络也能够处理结构化的信息,能够自动地获取知识?当然了,这很困难,现在还处在一个特别初级的起步阶段,但是也有一些很有意思的事情或想法在尝试。
- 上一篇:“墨子号”——漫漫追星路(二)
- 下一篇:评估机器的智商,认知智能可以做什么?(二)