亲,双击屏幕即可自动滚动
第385章 大场面!(2/2)

阿列克斯一怔,再次喊出声来,“百卡?这不可能!”

阿列克斯是对现在对于显卡集群最了解的人,即便他只用了两张显卡并行计算跑出了一个模型。

而百卡和两卡之间,不仅仅是差了98张显卡这么简单。

AI时代,大家都在说大模型大模型的,这个“大”字,实际上比大家认知的还要大。

这个“大”字,首先体现在其参数规模,比如,GPT-3的参数达到了1750亿,而更大型的模型GPT-4则达到了1.8万亿。

GPT-4由16个专家模型组成,每个专家模型包含约1110亿参数,再加上注意力层的550亿共享参数,总共形成了1.831万亿参数的模型。

巨大的参数能让模型捕捉到更复杂的语言和视觉特征,从而提高模型的性能和泛化能力。

其次就是大模型训练所需要的海量数据,互联网上的数据太多太多,每个大模型训练的数据几乎都是以TB为单位。

因为参数和数据的巨量,训练模型就需要更大的计算资源,怎么想两张gpu都没办法搞出大模型吧……

事实上,大模型几乎最少都需要千卡集群,才有可能在能接受的时间范围内完成模型训练。

所谓的集群也不仅仅是把卡串联或者并联起来就行,参数少一点还能搞一搞数据并行,再大就只能张量并行,更大就必须要流水线并行。

虽然词汇很专业,但本质上就是把数据拆分到每一张显卡上。

这时候考验就来了,显卡多了,通信就越发频繁,而通信就成为了整个计算的瓶颈,不解决就没办法进行下一步,因为计算资源会浪费的很严重甚至达到千卡集群不如百卡的程度。

而卡越多,稳定也成了问题。

黑洞的百卡集群能连续运行5天,但如果是千卡呢,以目前的技术储备应该会直接崩溃吧……

强如脸书的母公司ta,首次千卡集群时也仅仅运行了2天多一点。

阿列克斯能从训练模型的日常中稍微妄想一下百卡集群的难度,也正因为如此,才会对黑洞宣布百卡集群成功表示如此的失态。

“这很好证明,我们可以现场再做一次图像识别,大概就能证明我们的能力了吧!”

在场的人们或疑惑或兴奋,纷纷看向了主办方。

主办方也不含糊,图像有的是,再做一次识别马上就可以开始。

于是,在薛雨霜等人的操作下,1000张图像识别在4分钟以内完成了,错误率4.7%!

阿列克斯难以置信的看向文韬,“你们真的做出了百卡集群……”

“这还能有假?”

人们的脸色这次真的变了,当面如此快速如此高效如此准确的做出图像识别,无异于给了身负大仇的林平之一本《辟邪剑谱》!

鲍尔说话的声音都有点打结了。

“文!黑洞把这一切展示出来,究竟想做什么?”

很好,终于有人问出来了。

文韬伸出两根手指。

“我们来夏威夷,为了两件事。

第一,我们可以与全世界有志于AI的研究人员和团队一起成立一个AI项目,开源和闭源并行。名字我都想好了,就叫做opeAI吧!

第二,我们希望opeAI能协助黑洞进行显卡制造以及基于黑洞显卡的生态搭建!”

这一波,属于是要和英伟达图穷匕见啦!

@格格党 . www.ggdxs8.cc
本站所有的文章、图片、评论等,均由网友发表或上传并维护或收集自网络,属个人行为,与格格党立场无关。
如果侵犯了您的权利,请与我们联系,我们将在24小时之内进行处理。任何非本站因素导致的法律后果,本站均不负任何责任。