Grok3能否挑戰OpenAI地位?

2025/2/19 下午3:53

Grok3能否挑戰OpenAI地位?

文/高飛(發表於2025/2/18)

馬斯克:我們在為人類打造理解宇宙本質的AI助手

先回答一下主題詞所涉及的問題,xAI的Grok能不能挑戰OpenAI的GPT/O模型,目前看還不能,幾個方面分析:

1、性能上看,根據Andrej Kaparthy的預先測試,Grok3是O1 Pro級別,可能在有些場景略好。而根據Lmarena的排行榜,Grok3的搶先版也是第一。這些數據都不錯,但是別忘了OpenAI的O3版本還捏在手裡沒有發佈。

2、產品體驗看,Grok3的多模態、agent等特性也是剛剛起步。相比OpenAI,甚至Google Deepmind Gemini,以及一系列NotebookLM等工具組合,Grok3自身產品還比較薄弱。

3、生態品牌看,Grok系列差的就更遠了。ChatGPT搶跑兩年,擁有其他模型遠不能比的品牌優勢。即使Claude在開發者領域的口碑這麼好,也還沒有撼動GPT系列的優勢地位。

不過,我們也要換個角度看,畢竟Grok3這一出手,就拿了一個Lmarena排行榜的第一,而且是史上第一次的1400分+模型。考慮到Grok模型的出生時間最晚,積累最薄弱,這已經是一個很厲害的成績了。我看xAI團隊成員在推上都表現的非常興奮,覺得是完成了既定目標。

只是從外界看,鑒於xAI有二十萬卡的計算集群,大家對馬斯克的期望顯然也就更高。我個人還是會把xAI作為必須訂閱的模型,畢竟馬斯克說了,要打造理解宇宙本質的AI,而且是唯一一個真敢算黎曼猜想的AI,格局是打開的。


2/18發表會概要:

一、追求真理:xAI的終極使命

「為了理解宇宙的本質,你必須絕對嚴格地追求真理,否則你將無法理解宇宙,你會陷入某種程度的錯覺或謬誤。」

馬斯克在開場中這樣定義xAI和Grok的核心使命。 對於xAI來說,開發AI並不僅僅是為了提供一個實用工具,而是要打造一個能夠幫助人類理解宇宙本質的助手。馬斯克強調,他們希望通過AI來回答「外星人在哪裡」、「生命的意義是什麼」、「宇宙如何終結」、「宇宙如何開始」等人類終極問題。正是這種對宇宙真理的好奇心,驅使xAI打造一個「最大限度追求真理的AI」,即便這種追求有時可能與政治正確相悖。

二、技術突破:17個月的跨越式發展

從2023年首個模型啓動至今,xAI在短短17個月內實現了顯著的技術跨越。團隊展示了從Grok 1到Grok 3的演進歷程:最初的Grok 1僅有314億參數,被團隊戲稱為「玩具級」產品;而今天的Grok 3已經在多個權威基準測試中展現出領先優勢。

具體而言,在MMLU(大規模多任務語言理解)等核心評估指標上,Grok系列產品呈現出快速進步的軌跡。值得注意的是,就在發佈會前5天結束的2025年美國數學邀請賽(AMIE)測試中,Grok 3展現出了優於小型版本的泛化能力,這標誌著模型在實際應用場景中的成熟度。正如團隊所說:

「17個月前,我們的Grok 0和Grok 1幾乎無法解決任何高中級別的問題,而現在我們的'孩子'已經準備好上大學了。」

三、工程創新:122天建成全球最大AI訓練集群

在發表會最令人印象深刻的部分,馬斯克詳細講述了xAI如何在122天內建成當時全球最大的H100 GPU訓練集群。這個故事展現了團隊面對極限挑戰時的創新思維。

當傳統數據中心供應商表示需要18-24個月才能部署10萬個GPU時,xAI決定另辟蹊徑。他們在孟菲斯找到一座廢棄的伊萊克斯(Electrolux)工廠,通過一系列創新解決方案克服了重重困難:

1、通過租用大量發電機解決初期供電問題 2、租用了全美四分之一的移動制冷能力 3、首次在如此規模上實現液冷系統部署 4、創新性地使用特斯拉Megapack解決供電波動問題 5、解決了網路通信、BIOS匹配等眾多技術難題

更令人驚訝的是,團隊在完成這個項目後立即啓動了第二階段擴建,僅用92天就將集群規模翻倍。正如馬斯克所說,這個過程就像「指揮一個擁有10萬名演奏者的交響樂團,整個樂團在100毫秒內就能從寂靜轉為高奏。」

四、深度推理:從數學到遊戲的跨域突破

發表會現場,研發團隊展示了兩個引人注目的實時演示,體現了Grok 3在複雜推理任務上的能力。第一個演示是讓Grok計算地球到火星的往返軌道。僅通過一句簡單的提示:

「生成一個從地球發射到火星著陸,然後在下一個發射窗口返回地球的3D動畫軌道圖。」

Grok便完成了這個複雜的天體物理計算任務。馬斯克作為SpaceX的創始人也確認,雖然實際軌道計算還需考慮更多複雜因素,但Grok的計算結果「相當接近真實情況」。

第二個演示更具創造性——讓Grok設計一個融合俄羅斯方塊(Tetris)和寶石迷陣(Bejeweled)gameplay機制的全新遊戲。這個任務的特殊之處在於,它不是簡單的已有遊戲複製,而是需要理解兩種不同遊戲機制並創造性地將它們結合。Grok成功完成了這個任務,創造出了一個可玩的新遊戲,展現出了AI在創意領域的潛力。

五、持續進化:深度搜索與語音交互

在發表會的最後部分,團隊介紹了名為「DeepSearch」的新功能,這是Grok代理的第一代產品。與傳統搜索引擎不同,DeepSearch能夠深入理解用戶意圖,主動驗證多個資訊源,並以結構化的方式呈現深度分析結果。例如,當被問及「下一次Starship發射是什麼時候」時,系統會查閱多個權威來源,交叉驗證資訊,並提供完整的推理過程。

此外,團隊還預告了即將推出的語音交互功能。與簡單的文本轉語音不同,這是一個完整的語音模型,能夠理解語氣、語調和節奏,實現更自然的對話體驗。正如Igor在演示中分享的:

「我今天早些時候正在與它對話,它能記住並正確發音我的名字,這種體驗就像與真人對話一樣。」

六、商業化與開源策略

在問答環節,團隊闡明瞭產品發佈策略:Grok 3將首先向X平台的Premium Plus用戶開放,同時推出獨立的「Super Grok」訂閱服務。用戶可以通過grok.com網站或iOS應用使用服務,其中網頁版將提供最新、最強大的功能。

關於開源問題,馬斯克表示會繼續遵循「當新版本完全穩定後開源上一個版本」的策略,預計在未來幾個月內開源Grok 2。這種策略平衡了開放與創新,確保xAI能夠保持技術領先地位的同時回饋開源社區。

馬斯克XAI Grok 3發表會中英字幕影片連結


0 則留言