Monday, March 27, 2023

关于我学习机器学习的往事

去年末的时候chatGPT已经火力一把了,不过直到这个月初我才注册,因为终于想到了他的用法。他变成了一个全知全能的大师,所以比搜索引擎方便多了。

别看人工智能现在又热闹的一塌糊涂,可是这几年热闹的开始VR、虚拟现实啊,前几年国内的大型科技公司还在不停的裁这方面的人员。机器学习在2015年左右其实还是挺热门的。我那个时候刚刚来到荷兰,到了16-17年开始写论文的时候,还考虑用机器学习的方法预测某个地区的风速,当时至少是文献综述写了不少(翻了翻之前的文件,想起了很多,什么RNN、BPTT、batch_size啥的)。原理也是大概了解的。不过不久就放弃了,因为一时当时我也确实不是计算机专业的学生,二是,预测风速对于机器学习来说还是太困难,随机性比较大,很难预测,我现在也是这么认为的,就像预测股市一样,人工智能很难排上用场。

这是2016年存在电脑里的图

当时我记得使用了一个叫LSTM的模型,然后从NREL上下载了风速的数据,github上也有不少这种一维数据训练代码,我就参照着写了一部分,训练之后的效果确实不够理想。当然,这也是浅尝辄止了。其实当时很多人在说,现在大多数人搞的机器学习就是在调参,有人也戏谑的说是在炼丹。我对此也是略有认同,其实那里面好多参数,只是数学意义上的参数,实际效果好不好,不实际做出了,也确实不知道。

之后我就选择了一个CFD的课题继续毕业论文了。而毕业之后的也陆陆续续听到又机器学习公司裁员等等,但也有deepmind解析蛋白质等等的好消息。

最近让我感到很神奇的是机器学习绘图的原理,以前我认识的机器学习无非是多层的神经网络,然后反向传播求各个神经节点的参数等等等等,当然现在看来,当时学习的东西真的非常浅显。另一个重要的地方在于训练,训练集必须很大才能让神经网络智能起来。所以我们看到了几百万几千万张照片的训练集。不过,怎样才能训练机器来进行绘画呢,图片可以有很多,绘画可是一个过程,这个怎么训练,后来一篇文章让我醒悟。方法非常简单粗暴,我只要把现有的图片加入噪点就可以了,随着噪点的增加,最终图片变成了完全的随机雪花图片。这个加噪点的过程发过来不就是无中生有的绘画过程吗,所以每一副图片我都可以这样加噪点,人工创造绘画的过程。真是太有趣了。

然后就是chatGPT了,这里面的原理我就不清楚了,等有时间也研究一下。不过粗线的从新闻上看,这是一个大力出奇迹的案例。训练集质量很高,模型参数很多,应该是超级多。如果又上千亿个参数,那这数量也赶上人脑了。所以这种模型就叫大模型。而大模型的训练成本由于参数这么多,也会变得很高。听说一次也要几百万美元的电费。

所以这种大模型AI,小公司很难独立研发,很容易实现霸权。

chatGPT发布不久,国内股市就躁动起来,大家都在找对标。一些人很乐观,另一些人很悲观。我是属于悲观的那一类。因为训练集很差。知乎上一个答案说,现在包括GPT在内的模型都是undertrained,意思是,动用了全互联网的资料,还不够训练参数迭代收敛的。所以想一想中文互联网上的东西,存在高质量的训练集吗?高质量的论文是用英语的,知乎算是高质量的语言资料库了,但是现在也充斥的商业话内容,而其他的地方,由于百度的无能,导致劣币驱除良币,到处充斥的垃圾内容,当然还有共产党审查机制,很多东西被删除,直接找不到。

就像学生学习要有质量好的教科书一样,你喂给AI垃圾教科书,它能学好吗?

当然这些跟我关系不大,看空百度而已。

关系大的是GPT对于生产效率的提升,对于整个社会和个人带来的影像。从人工智能绘图来看,画师和模特会受比较大的一样,毕竟一般人们只是需要一个跟得上审美的设计而不是顶级设计,用机器绘画,效率成本都会很好。以后一张衣服的图片可以直接生成一样模特穿着它的效果图,真人模特也就用不着了,这对于销售企业来说就节约了很大的成本。

当然还有很多,比尔盖茨说的没错,巨大的进步。很多人的生活就要发生巨变了,对于我来说,也是战战兢兢面对吧。