阿列克斯一怔,再次喊出声来,“百卡?这不可能!”
阿列克斯是对现在对于显卡集群最了解的人,即便他只用了两张显卡并行计算跑出了一个模型。
而百卡和两卡之间,不仅仅是差了98张显卡这么简单。
AI时代,大家都在说大模型大模型的,这个“大”字,实际上比大家认知的还要大。
这个“大”字,首先体现在其参数规模,比如,GPT-3的参数达到了1750亿,而更大型的模型GPT-4则达到了1.8万亿。
GPT-4由16个专家模型组成,每个专家模型包含约1110亿参数,再加上注意力层的550亿共享参数,总共形成了1.831万亿参数的模型。
巨大的参数能让模型捕捉到更复杂的语言和视觉特征,从而提高模型的性能和泛化能力。
其次就是大模型训练所需要的海量数据,互联网上的数据太多太多,每个大模型训练的数据几乎都是以TB为单位。
因为参数和数据的巨量,训练模型就需要更大的计算资源,怎么想两张gpu都没办法搞出大模型吧……
事实上,大模型几乎最少都需要千卡集群,才有可能在能接受的时间范围内完成模型训练。
所谓的集群也不仅仅是把卡串联或者并联起来就行,参数少一点还能搞一搞数据并行,再大就只能张量并行,更大就必须要流水线并行。
虽然词汇很专业,但本质上就是把数据拆分到每一张显卡上。
这时候考验就来了,显卡多了,通信就越发频繁,而通信就成为了整个计算的瓶颈,不解决就没办法进行下一步,因为计算资源会浪费的很严重甚至达到千卡集群不如百卡的程度。
而卡越多,稳定也成了问题。
黑洞的百卡集群能连续运行5天,但如果是千卡呢,以目前的技术储备应该会直接崩溃吧……
强如脸书的母公司ta,首次千卡集群时也仅仅运行了2天多一点。
阿列克斯能从训练模型的日常中稍微妄想一下百卡集群的难度,也正因为如此,才会对黑洞宣布百卡集群成功表示如此的失态。
“这很好证明,我们可以现场再做一次图像识别,大概就能证明我们的能力了吧!”
在场的人们或疑惑或兴奋,纷纷看向了主办方。
主办方也不含糊,图像有的是,再做一次识别马上就可以开始。
于是,在薛雨霜等人的操作下,1000张图像识别在4分钟以内完成了,错误率4.7%!
阿列克斯难以置信的看向文韬,“你们真的做出了百卡集群……”
“这还能有假?”
人们的脸色这次真的变了,当面如此快速如此高效如此准确的做出图像识别,无异于给了身负大仇的林平之一本《辟邪剑谱》!
鲍尔说话的声音都有点打结了。
“文!黑洞把这一切展示出来,究竟想做什么?”
很好,终于有人问出来了。
文韬伸出两根手指。
“我们来夏威夷,为了两件事。
第一,我们可以与全世界有志于AI的研究人员和团队一起成立一个AI项目,开源和闭源并行。名字我都想好了,就叫做opeAI吧!
第二,我们希望opeAI能协助黑洞进行显卡制造以及基于黑洞显卡的生态搭建!”
这一波,属于是要和英伟达图穷匕见啦!