AI芯片公司纷纷推广“大模式”|直击WAIC2023

日期:2023-07-12 14:26:54 / 人气:186


半导体公司参加世界人工智能大会(WAIC)已经成为惯例。然而今年,大部分观众冲到一家半导体公司的展台前,做的第一件事就是寻找“大模型”二字。
大型机型在中国爆发了半年多,计算能力一直是公司头疼的问题。大规模的模型训练需要高质量的数据和巨大的计算能力。由于种种原因,国内厂商很难买到NVIDIA A100和H100芯片。A800芯片价格比较高,容易买到。
据36Kr了解,国内拥有万卡储备规模的大型模型公司不到10家,大部分是百度、字节跳动、阿里、魔方量化等巨头。
可以说,计算能力正在成为禁锢大型模型公司的一大瓶颈。
国内半导体企业何时能支撑起中国模式的未来成为业界关注的话题。
在本次WAIC上,几乎所有的AI芯片公司都在展台上设立了“大模型”的展示页面,除了厚模智能、智存科技等存储和计算集成公司,介绍其产品对大模型和AIGC应用的支持能力。
从时间上看,一个芯片从研发、设计、流片、测试到量产,需要3到5年的时间。之前芯片厂商在芯片设计上并没有朝着大模型的训练功能去设计,目前展出的大部分都是过去推出的产品。
在国内大部分芯片厂商看来,行业样板公司才是他们更好的机会,能够同时满足训练和推理整合能力的芯片产品才有市场前途。
人工智能芯片公司拥抱“大模式”
在WAIC会议的展厅里,大型模型制造商占据了房间的一半,半导体公司占据了另一半。走到世博会H2馆,昆仑芯、登临、汉博、天之芯、随缘、摩芯、牧溪等AI芯片厂商的展台密密麻麻地聚集在一起。
芯片制造工艺和计算能力已经不是AI芯片最关心的话题了。是否支持大模型,是做训练还是做推理,适应什么模型,速度多快,精度多高,功耗多少,显存用什么芯片,内存达到多少,围绕大模型的一系列问题成为参展企业关注的焦点。
芯片具备支持大模型训练或推理的能力是一个分水岭。
推理比训练更容易实现。大模型的训练是把亿万亿的数据喂给算法,最终训练出一个模型的过程,对芯片的运算速度和稳定性要求非常高;推理就是在大模型的帮助下,通过喂给他一个数据,一个问题,生成一个答案的过程,大大降低了单个问题的计算量。
展会上,昆仑芯、天之信、随缘等少数公司表示有能力支持大规模的模型培训。
昆仑AI加速卡RG800峰值分别为256 TOPS@ INT8和128 TFLOPS@FP16。展台相关产品介绍表示,可用于常规模型训练和多服务并发的高性能推理。
田甜·炙心的产品可以支持大规模的模型训练和推理。据展台工作人员介绍,“上半年我们组建了40P计算能力、320张天籁100加速卡的计算集群,完成了致远研究院70亿参数大型模型训练。目前,天之信正在建设1600卡200P计算能力的计算集群,支持650亿个参数的大模型训练。”
随园科技展出的二代训练产品“云象T20/T21”已量产,并落地重点实验室和成都智能计算中心。据展台工作人员介绍,目前可以支持很多大型模型,现场演示了基于LLaMA、Vincent PPT和多媒体生成demo的聊天机器人。
对于大模型训练,数据精度需要达到FP16和FP32的水平。从官方公布的数据来看,天之芯的智能铠甲100、随缘基斯2.0、昆仑芯的第二代AI芯片、登麟科技的新一代Goldwasser最高可以支持FP32级别的数据。
大部分AI公司主要是将AI芯片的推理能力引入大型模型。穆、邓琳、、莫昕等。都带了自己的AI推理芯片和产品。
芯片的判断指标主要有计算能力、功耗、精度、内存等维度。计算能力越高,计算速度越快;功耗越低,功耗和运营成本越低;可支持数据的准确度越高,可训练和识别的粒度越高;内存容量越大,可以处理的数据量就越大,可以更好地支持大型模型所需的大量数据的计算过程。
在计算能力维度上,墨芯采用了稀疏技术路线,S30可以提供2832 TOPS(INT8)和1415.4 TFLOPS(BF16)的稀疏等效计算能力,功耗只有250W,但相对而言,其产品的通用性还有提升空间。
穆希希的N100单卡计算能力为160TOPS(INT8)和80TFLOPS(FP16),而汉博推出了LLM型号AI加速卡VA1L,计算能力为200 TOPS INT8和72 TFLOPS FP16。
从显卡来看,海飞科的Compass C10通用GPU和登上新一代Goldwasser都有128GB显存。根据海飞客官方数据,可以支持单卡部署数百亿参数的大模型进行推理。汉博还表示,基于VA1L的大型号一体机拥有512GB显存,可支持1750亿参数的大型号部署。
AI芯片的硬件性能只是一方面,如果要用国产芯片,软件能力将是更重要的壁垒之一。计算能力的释放需要复杂的软硬件配合,才能将芯片的理论计算能力转化为有效的计算能力。
英伟达用3000多名工程师打造了强大的Cuda,成为了英伟达强大的生态屏障。这个框架集成了大量调用GPU计算能力所需的代码,工程师可以直接使用这些代码,不需要一个一个写。
一位关注基础软件的投资人曾对36Kr说:“没有CUDA,调用GPU的代码就永远写不完,不可能什么都自己写。”
国内公司的软件生态有两派。比如寒武纪和昆仑选择构建自己的软件生态,重建一个Cuda软件能力和工具栈。更多的公司选择与Cuda连接,如天心智信、摩尔线程、随缘、登麟等。,使其产品与Cuda兼容。
此外,国内AI芯片公司也在加强适应性,适应更大的型号和开源型号。
多家公司向36Kr表示,未来将推出可以同时做训练和推理的产品,产品预计分别在2023年第四季度至2024年之间推出。
训推集成芯片才是未来。
大型模型厂商处于百模大战阶段,有做L0级技术模型的大型工厂,有做L1级行业模型的应用企业,还有一些微调的场景模型。
目前国内AI行业公司大多认为国产芯片的第一个落地方向是行业模式。
第一,行业模型相比大模型,更容易培养和落地,需求更大。
一些垂直行业客户在市场部署时,希望以最小的计算成本实现模型的落地。相对于从零开始训练一个大模型,“微调”对于客户来说是更经济的方法。
多位受访者对36Kr表示,目前国内垂直行业的大模型相比千亿级参数的大模型更容易落地,这也是国内芯片公司最容易落地的场景。
行业内的垂直客户通常有微调训练推理的需求,有低成本快速采用大模型的能力。他们不想买两种不同的芯片,培训和推广的集成芯片就能很好的满足客户的需求。
推出兼具训练和推理功能的芯片已经成为一种趋势,而训练和推送一体化的芯片也是大部分国内AI芯片公司在大规模模型计算能力需求浪潮下的出发点。
第二,L0级别的技术模型厂商更倾向于选择头部供应商。在目前争分夺秒的大模型培养阶段,国内AI芯片公司很难成为其供应商。
对于阿里、百度、腾讯以及选择L0级别大型机型的公司来说,成本并不是首先考虑的因素。为了更好地实现大规模模型效果,他们会优先选择英伟达的产品,以保证在计算能力上不会拉大与国际同行的差距。
有业内人士曾对36Kr表示,大模型公司的算法和数据也存在一些问题,大模型的训练需要几个月不间断,国产芯片的稳定性也没有得到充分验证。一旦训练中断,很难界定是算法问题还是芯片问题。大模特公司不愿意冒这个风险。
国内公司也能满足千亿级模型的培训需求。在单卡训练计算能力不足的情况下,堆叠是一种方法。
针对这种需求,华为盛腾、昆仑芯等公司需要通过RDMA互联搭建数百台服务器、数百张卡的集群,通过集群堆叠计算能力,增加计算能力,再通过软件能力统一调度计算能力。
计算能力资源往往需要以池化的形式呈现。由于不同芯片在底层硬件和上层软件的调度方式和接口上的差异,为了更好地调度计算能力,通常不会在基础设施中使用几家公司的芯片硬件。数据中心通常倾向于使用同一芯片或同一公司的不同芯片,以降低计算能力池的难度。这意味着一个数字基础设施项目需要选择单一公司的产品。
国内AI芯片公司大多成立不到5年。芯片需要软硬件层面的积累,产品需要一步步迭代设计。抓住需求,在我们能力范围内,从成本和性能角度推出可以替代的产品。在如今资本相对冷淡的环境下,我们必须先生存下来,才能探索未来。"


作者:天富注册登录平台




现在致电 5243865 OR 查看更多联系方式 →

COPYRIGHT 天富注册登录平台 版权所有