“不知道啊,可能在AI实验室那边吧。”
“英伟达的显卡送过来了,如果AI能像文总说的那样出成果,对于游戏行业的推动是巨大的。”
“这么多显卡,AI那边用得到吗?按我说的不如拿来挖矿……”
……
文韬此时还真就在AI实验室里。
进入决赛之后,文韬的重心还是会向工作转移。
自从英伟达的显卡送到后,关于用显卡去训练AI大模型在实验室里就论证了很多次,遇到的困难很多,文韬也该去了解一下情况了。
gtx580虽然在2011年是顶级显卡,黑洞利用显卡训练AI也比opeAI要早了5年,但此时的GPU算力和5年后肯定差距很大。
算力不够的情况下,多卡训练就成了必要的一步。
但第一步就卡住了,到底是用多少显卡来训练呢?
8张?16张?128张?1024张?
并不是说用的卡越多越好,千卡的算力当然比8张大得多,但是同时,这也意味着通信时间增加和故障概率的增加。
除非是训练大模型大数据这类的大问题,否则千卡训练是真用不上。
无论是用多少张,都是要不断探讨的。即便是训练小模型,也会出现各种问题。
特别是从小到大的阶段,明明是好好的,一变大各种问题都出来了。
宕机、性能提升不足预期、损失曲线出大问题。
大家都没什么经验,只能一点点研究。看log,看数据,看gradiet的大小分布,和其他模型的训练进行记录做比对,做可视化。
有没有用千卡训练过模型其实并不重要,重要的是探索出一条可重复的模型训练技术路线。
黑洞肯定要训练自己的大模型,但那不是现在。
从8卡、16卡开始,一点点训练不同的内容,再一点点增加,最终才能染指大模型。
那么,既然现在用不上那么多显卡,又不为了挖矿,那为什么要斥巨资买下10万张GTX580呢?
电子产品迭代的速度可是十分惊人的,一不小心就贬值,又不像4090这种还能不断涨价的顶尖显卡。
文韬的打算是,开个网吧。
具体来说,为了吃鸡开个网吧。
再具体一点,为了吃鸡跑自动化AI,尝试训练DLSS1.0。
1.0DLSS,是利用AI的深度学习的技术,将低分辨率的游戏画面提升为高分辨率。
最大的缺点就是数据量不足。
所以,这个网吧的使命,就是一天24小时不间断的运行吃鸡,然后利用这些庞大的数据喂给AI,完成DLSS1.0。
为此,至少需要2个AI工具。
第一个是自动化运行。
文韬没办法找10万名玩家到“网吧”来一秒不停的玩吃鸡,吃鸡就算再好玩,人的身体也受不了,因此需要自动化。
第二个工具是自动化数据生成。
靠人工提取数据再喂给AI是不可能的,黑洞全体员工007也没可能。
最后还要将训练好了的DLSS1.0兼容到580以上的显卡,这个就需要和英伟达谈了。
最好的结果是,黑洞联合英伟达推出升级版的580TI,或者在更高级别的显卡上兼容,最后靠吃鸡的游戏质量和全球爆火的情况,倒逼所有网吧升级硬件。
这样,在没有更好硬件的条件下,才有可能让吃鸡顺利上线。