Monday, August 18, 2025

为什么为什么为什么

小崽子从几个月前开始密集的说为什么了,为什么这样,解释了一遍之后,再问为什么+刚刚的解释。重复循环的问为什么。

最近在看一些人工智能的播客,对于只了解神经网络的我来说,有一些新奇的概念很有启发。

第一个概念就是涌现(emergence),通俗地说就是训练神经网络到了某个时刻,模型突然开窍了,有智能的表现了。可能原来某个规模的模型表现的傻傻的,然后增加参数,等到了某个更大规模后,这个模型性能显著提升。这是不是可以用在人的教育上。我们学习的曲线并不是线性的,众多所谓learning curve也不是直线。小孩子学会说话,也应该是这样的吧。

第二个是高维度,具体表现就是,某些模型是专门用来训练其他模型的,也就是模型与模型之间的交流。但是当这个模型跟人交流的时候,它的性能会劣化的非常明显。我们推测这是因为模型之间的交流是某个更高维度的交流。如果它要与人类交流,就必须把高维度信息转化为语言。这必然带来了信息的损失,就像三维图像转成二维一样。又或者想象一下,人类无法跟动物交流,因为动物完全没有理解语言的智力。对牛弹琴,牛也永远无法理解。想到这里,是不是有点悲哀呢?会不会怀疑人类创造了更高等级的文明,以至于人类已经无法理解了呢。人类的进化赶不上代码的进化。

When OpenAl converted the o3 parent model to a chat version of the model-also known as a student model-that allowed people to ask it anything, its gains degraded significantly to the point where it wasn't performing much better than o1, the people who were involved in its development said.

第三个是灾难性遗忘(catastrophic forgetting),就是训练大模型的时候,不能无限制的训练,一直给模型塞知识。这样到了某个时刻,大模型就崩溃了。连最基本的加减乘除都忘了。所以说大模型的参数一定要大,保证塞进的知识忘不掉。就像海绵一样,大海绵吸的水更多,也不会吸满,毕竟人类的知识和数据也是在一只增加的。另一方面,我们人类是不是也是如此,人的大脑是不是也经不起日夜兼程的思考和知识的灌输,也有那么一个极限呢。而有些文献上,防止这个灾难性遗忘的方法也很拟人:输入白噪声,让大模型睡觉。

发自我的 iPhone

No comments:

Post a Comment