第385章大场面！,重生08：游戏开发有手就行正文,作品相关青椒大虎皮-格格党

亲,双击屏幕即可自动滚动

第385章大场面！（2/2）

阿列克斯一怔，再次喊出声来，“百卡？这不可能！”

阿列克斯是对现在对于显卡集群最了解的人，即便他只用了两张显卡并行计算跑出了一个模型。

而百卡和两卡之间，不仅仅是差了98张显卡这么简单。

AI时代，大家都在说大模型大模型的，这个“大”字，实际上比大家认知的还要大。

这个“大”字，首先体现在其参数规模，比如，GPT-3的参数达到了1750亿，而更大型的模型GPT-4则达到了1.8万亿。

GPT-4由16个专家模型组成，每个专家模型包含约1110亿参数，再加上注意力层的550亿共享参数，总共形成了1.831万亿参数的模型。

巨大的参数能让模型捕捉到更复杂的语言和视觉特征，从而提高模型的性能和泛化能力。

其次就是大模型训练所需要的海量数据，互联网上的数据太多太多，每个大模型训练的数据几乎都是以TB为单位。

因为参数和数据的巨量，训练模型就需要更大的计算资源，怎么想两张gpu都没办法搞出大模型吧……

事实上，大模型几乎最少都需要千卡集群，才有可能在能接受的时间范围内完成模型训练。

所谓的集群也不仅仅是把卡串联或者并联起来就行，参数少一点还能搞一搞数据并行，再大就只能张量并行，更大就必须要流水线并行。

虽然词汇很专业，但本质上就是把数据拆分到每一张显卡上。

这时候考验就来了，显卡多了，通信就越发频繁，而通信就成为了整个计算的瓶颈，不解决就没办法进行下一步，因为计算资源会浪费的很严重甚至达到千卡集群不如百卡的程度。

而卡越多，稳定也成了问题。

黑洞的百卡集群能连续运行5天，但如果是千卡呢，以目前的技术储备应该会直接崩溃吧……

强如脸书的母公司ta，首次千卡集群时也仅仅运行了2天多一点。

阿列克斯能从训练模型的日常中稍微妄想一下百卡集群的难度，也正因为如此，才会对黑洞宣布百卡集群成功表示如此的失态。

“这很好证明，我们可以现场再做一次图像识别，大概就能证明我们的能力了吧！”

在场的人们或疑惑或兴奋，纷纷看向了主办方。

主办方也不含糊，图像有的是，再做一次识别马上就可以开始。

于是，在薛雨霜等人的操作下，1000张图像识别在4分钟以内完成了，错误率4.7%！

阿列克斯难以置信的看向文韬，“你们真的做出了百卡集群……”

“这还能有假？”

人们的脸色这次真的变了，当面如此快速如此高效如此准确的做出图像识别，无异于给了身负大仇的林平之一本《辟邪剑谱》！

鲍尔说话的声音都有点打结了。

“文！黑洞把这一切展示出来，究竟想做什么？”

很好，终于有人问出来了。

文韬伸出两根手指。

“我们来夏威夷，为了两件事。

第一，我们可以与全世界有志于AI的研究人员和团队一起成立一个AI项目，开源和闭源并行。名字我都想好了，就叫做opeAI吧！

第二，我们希望opeAI能协助黑洞进行显卡制造以及基于黑洞显卡的生态搭建！”

这一波，属于是要和英伟达图穷匕见啦！