Grok 3是近期人工智能领域的新成员,其高能耗特性引起了广泛关注。在性能方面,该模型展现出一定的优势。然而,其能耗较高的问题不容忽视,且在性价比上还有提升的可能。
高能耗模式
Grok 3被视为能耗相对较高的模型之一。其发展路径主要依靠牺牲性能来扩大规模。在目前行业普遍重视开源和成本效益的背景下,这种做法显得不太适宜。高能耗导致成本和资源消耗巨大,Grok 3迫切需要解决如何在能耗与效率之间找到平衡点这一核心问题。
xAI公司在孟菲斯部署了超级计算机集群进行训练。该集群在122天内完成了第一阶段的建设,并配备了10万块NVIDIA H100 GPU。进入第二阶段后,集群规模迅速扩大至20万块GPU,整个过程耗时仅92天。大规模GPU的应用和集群的快速扩展,导致了能源消耗的明显增加。
测试高光表现
Grok 3的演示PPT揭示了其在AIME'24数学竞赛、GPQA科学素养评价、LCB Oct - Feb编程技能测试等多项测评中,性能优于谷歌的Gemini 2 Pro、DeepSeek V3、Anthropic的Claude 3.5 sonnet以及OpenAI的GPT - 4o等知名大型模型。这一显著成就吸引了业界的广泛关注,使得Grok 3成为焦点。众多开发者和研究者开始关注这一在测试中表现卓越的大模型,并对其实际应用前景充满期待。
测试结果表现出色,但其在实际运用中的效果可能有所差异,后续表现备受瞩目。众多用户抱有期待,期待见证Grok 3能否将测试阶段的出色表现带入日常使用中。
直播翻车事件
直播演示是评估大型模型性能的关键方式,然而Grok 3在直播过程中屡次遇到技术难题。比如,马斯克在演示火星飞行代码时,其输出系统多次出现故障,两次尝试均未能达到预期效果。这一系列问题引发了公众对其稳定性的普遍关切。
直播事件引发广泛讨论,公众对大模型在宣传中过分强调其功能表示疑虑。这一事件损害了Grok 3的公众形象,使一些潜在客户变得更加慎重。
用户实际测试
直播活动落幕之后,X平台若干用户对Grok 3的最新Beta版本进行了试用。他们提出一个典型疑问:“在9月11日和9月9日之间,哪一天属于后续日期?”这一问题的正确解答是衡量Grok 3实用性关键因素之一。尽管问题看似简单,但如果连基本问题都无法妥善解决,其在处理复杂任务时的表现将难以得到认可。
Grok 2的推出引起了广泛关注,但实际应用效果并未符合预期。至于Grok 3是否会重蹈覆辙,即拥有高分却表现不佳,目前尚无确切结论。这种不确定性导致许多用户在使用Grok 3时持谨慎态度。
对比DeepSeek V3
Grok 3与DeepSeek V3在资源利用方面呈现显著不同。DeepSeek V3是在一个由2048块英伟达H800 GPU组成的算力受限集群中进行的训练。该训练阶段共动用了278.8万小时的H800 GPU时间,总费用达到了557.6万美元。与同等性能的闭源模型相较,DeepSeek V3在GPU使用、训练所需时间和算力成本上均实现了大幅降低。
分析表明,Grok 3的算力需求远超DeepSeek V3的263倍。尽管Grok 3在数学运算和编程方面表现出色,但这一对比数据凸显了两者在资源利用效率方面的显著差异。DeepSeek V3凭借较低的成本与同类闭源模型竞争,这一情况亦引发了硅谷对“烧钱”模式的深度反思。
环保争议与计划
近期,xAI的超级计算机集群在当地引发了环保方面的争议。初期,该机构为解决电力短缺问题,租赁了众多发电设备,并占据了美国大约40%的制冷资源。此外,他们宣称这是全球首个实现如此规模液冷数据中心的项目。
xAI的进步持续不断,目前正专注于开发新型且高效的算力集群。该集群的电力需求高达1.2吉瓦。这一成就引发了公众对能源消耗可能增加及环保问题的关注。在追求性能提升的过程中,xAI和Grok 3必须关注如何在环保和成本之间找到平衡点。
科技持续发展,尽管Grok 3在测试阶段展现出积极成果,但在能耗与性能方面仍遭遇难题。Grok 3在能耗与性能协调上的未来走向,以及其未来发展的潜力,仍充满变数。敬请点赞、分享本文,并在评论区分享您的见解!