人类被认为具有某种无形智慧,毕竟语言是模型的最后一层输出,而人类在说话时会思考,这个思考并不需要语言。很多人可能觉得思考是需要语言的,但其实不需要,就像那个经典的例子,你想象一个立方体,六个面,就像一个骰子一样,现在你让它逆时针旋转一面,让它变大,让它开始拉长成一个长方体。当你这么思考的时候,你的脑子里是没有语言介入的。
或者另一个例子,有些天生的聋哑人,它们根本没有spoken的语言输出层,显然他们也能思考,大家的思考逻辑和行为逻辑并无二致,只是输出层受限了,变成了手语,打字之类的方法。
而不停预测下一个字这件事,一些人觉得很奇怪,所以不能叫做智能。事实上这个争论的点已经到哲学层面了,而不是技术层面。
人类在无法逆转的时间长河当中,只拥有眼前的一瞬,我们从来无法验证过去是否存在,过去只存在于记忆里面。能够证明这个的就是五分钟世界假说(Five-minute hypothesis)。我们以人类细胞的运行速度预测下一个瞬间我们要说什么,该做什么,呼气还是吸气。在我眼里这和AI预测下一个字并没有什么区别。
AI更是完全无法知道历史 conversation 是不是它自己生成的,它只能在当前的一瞬,参照给定的历史来一个token一个token的预测未来。AI的整个瞬间甚至能完全被快照下来。AI的时间最小单位,输出速度被机器的运算速度,GPU频率有「间接」关系。所以在运行逻辑上,我觉得AI和人类是完全相同的。
那人类真的和大模型不一样吗?但你从最初始的角度来看,婴儿和一个全随机参数的初始权重来说也并没有什么区别。都是靠后天的,大量接触完全陌生的东西,来让神经元逐渐建立链接,产生某种“意义”。
人类和AI一样都是多模态模型,想办法最终想出一个解释自己的输入输出的办法。眼睛所看,耳朵所听,皮肤所触,最终变成一些密密麻麻的电信号经由神经被传输给大脑这个不知道多少层多少参数的混沌模型,然后通过身体输出。
AI更是一样,尤其是多模态模型,图片和声音被转换为向量,跟文字被拼到一起一起送入模型,图片甚至没有被OCR,而是直接进入了模型这个脑子里,这太奇妙了。这跟人类确实是没什么区别。
关于这种共同本质进一步的延展,以及它是否意味着大模型已经具有真正智能,可以见
《大模型是智能吗?(随想)》。
而这种预测本质如何与人类的偏见、社会结构和认知局限结合,从而影响现实世界,则可以见
《人类和AI终将互相训练》(随想)。