科技巨头微软正在开发一种新的网卡芯片(芯片行业分析报告),替代英伟达ConnectX SmartNIC智能网卡产品,以确保 AI 模型数据可以在微软云服务器之间快速传输。微软方面确认了此消息。该公司在一份声明中表示,作为微软Azure基础设施系统方法的一部分,公司经常开发新技术来满足客户的需求,包括网络芯片。
实际上,作为英伟达GPU(图形处理器)的最大客户之一,微软事件是一个重要“信号”。除了省成本之外,微软还希望新网卡能够提高其英伟达芯片服务器的性能,将有助于使用微软云的OpenAI 研发更多 AI 大模型。近两天,一家名为Groq的美国 AI 公司一夜“爆火”,主要因其自研的LPU芯片在 AI 推理技术上,通过优化架构和减少内存瓶颈,实现了高效率和低延迟,在处理大模型时的速度远超英伟达GPU,每秒生成速度接近500 tokens,而GPT-4仅40 tokens。
因此,Groq LPU被誉为“史上最快的大模型技术”。受上述消息以及外部环境影响,截至2月20日美股收盘,英伟达单日股价下跌4.35%,创下去年10月以来的最大单日跌幅,一夜之间总市值缩水780亿美元(约逾5600亿元人民币)。
IDC分析师对钛媒体App等表示,随着Sora的推出,多模态大模型对 AI 算力的消耗更高,算力的可获取性以及成本将是行业挑战之一。那么,面对这种新的竞争局势,英伟达真的危险了吗?据悉,Groq公司成立于2016年,总部位于美国加利福尼亚,创始团队中有很多人都参与过谷歌TPU项目。
其中,Groq创始人兼 CEO乔纳森·罗斯(Jonathan Ross)曾设计并制作出了第一代谷歌TPU芯片的核心元件,TPU 20%的研发项目都由他完成。公司领导层的10人中,有8人都有在谷歌、英特尔等科技巨头的工作经历。融资方面,截至目前,Groq共完成了3轮融资,总共融资到了3.67亿美元。最后一轮融资在2021年4月完成,融资金额为3亿美元,由老虎环球基金(Tiger Global Management)和投资公司D1 Capital领投。
Groq之所以能够在此次 AI 热潮中“爆火”,主要得益于其使用了自研芯片LPU(Language Processing Units),而不是英伟达的GPU(图形处理器)芯片,它能实现高速度和低延迟。据Groq在2024年1月的第一个公开基准测试,由Groq LPU驱动的Meta Llama 2-70B模型,推理性能比其他顶级云计算供应商快18倍。
roq LPU的工作原理与英伟达的GPU不同,它采用了名为时序指令集计算机(Temporal Instruction Set Computer)架构,使用存储器为静态随机存取存储器(SRAM),其速度比GPU所用的高带宽存储器(HBM)快约20倍。从芯片的规格中,SRAM容量是230MB,带宽80TB/s,FP16的算力是188TFLOPs。这一区别造成了 LPU和GPU在生成速度的差别。据Groq表示,英伟达GPU生成每个tokens需要约10焦耳(J)到30焦耳,而 Groq 仅需1焦耳到3焦耳。