AI 新模型再+1,Grok 3 正式上線啦!xAI 近日在 X(舊稱Twitter)上宣布全新推理模型 Grok 3 正式上線,並且全面開放免費使用,直到伺服器融化為止,Grok 3 在剛釋出 Beta 版的時候,就已經讓不少人眼前為之一亮,無論是在生圖的部分還是在文字的表達上都有相當的水準,那麼這次以完整體上線的 Grok 3 推理能力有什麼樣的表現呢?
Grok 3 是什麼?
Grok 3 是由馬斯克成立的人工智慧公司 xAI 所推出的新一代推理模型,Grok 3 與前兩代的模型較大的差異在於 Grok 3 引入了「思維鏈」,「思維鏈」代表著推理能力,能讓 Grok 3 像是人類一樣進行思考與推理,並且能夠處理複雜的任務,讓 Grok 能夠與 ChatGPT、Gemini 等主流模型進行對抗。
原本預期Grok 3 會如前兩代模型一樣進行收費,但 xAI 團隊在 X 上發文表示,這次的 Grok 3 模型免費開放各用戶使用,直到伺服器融化為止,有興趣的各位千萬不能錯過!
▼ 官方原文
Grok 3 有中文嗎?
目前 Grok 3 的使用介面尚未支援繁體中文,仍然是以英文為主,可能在日後會逐步開放不同語種的使用介面,但是在詢問問題的時候可以使用中文,Grok 同樣也會使用中文回覆,不需要將指令翻譯成英文再丟給模型,減少因為翻譯出錯誤的單字,造成語意相差極大的問題。
Grok 3 功能實測比較
接下來塔塔要來實測 Grok 3 的邏輯推理能力,並且再與同樣擁有推理能力的 ChatGPT-o1 與 Gemini Deep Research 模型進行比較,塔塔簡單的設計了一個推理題目,題目為「請幫我找出這下方五樣東西當中哪一個不同於其他四個 1. 手錶 2. 耳環 3. 眼鏡 4.手環 5. 吊墜」,正確答案是「眼鏡」:
▉ Grok 3
首先開啟 「DeepSearch」功能後,接下來將題目交給 Grok 3 進行推理,推理的過程會在另外的對話窗當中出現,整個推理過程大約 1 分鐘左右,並且查詢了 32 個資料來源,Grok 3 將這五樣物品從分類、配戴位置、文化意義等面向進行分析找出了題目的答案「眼鏡」。
- 完整推理過程與結果:Grok 3
▼ Grok 3 給出了正確的答案

在推理過程的細緻程度,塔塔發現到 Grok 3 它會考量到使用不同語種的人或許也有著不同的文化背景,它會確認它所提出的假設是否正確,是否會因為不同的文化背景而出現文化認知差異,最後給出的各方面論證與證據舉證說明也有架構,清楚明瞭,推理時間也不會太久,以免費使用的模型來說,相當不錯。
▉ ChatGPT-o1
接下來將問題交給同樣擅長推理的 ChatGPT-o1 模型開啟「深入研究」功能詢問,與 Grok 3不同的是,在 ChatGPT-o1 開始推理之前,它會先詢問使用者想從哪種角度分析,有特定想分析的方向可以直接下指令,如果跟塔塔一樣沒有指定,指令可以使用「請幫我將所有的可能性都分析一次」,接下來會看到研究進度條,點開後可以開啟側邊視窗查看推理過程。
- 完整推理過程與結果:ChatGPT-o1
▼ ChatGPT-o1 分析畫面

ChatGPT-o1 深入研究的推理速度比起 Grok 3 來說,速度有很大的差異,大概花了近 10 分鐘左右,查看它的思考過程,可以發現它在思考方式是一階段一階段的,較少單條式的思考,但是根據結果來看,雖然用了較長的時間在爬梳、思考與論證,但是在分析面向的詳細程度塔塔個人認為 ChatGPT-o1 是比 Grok 3 來的好。
兩組模型都有使用到「文化」這一詞,在 Grok 3 當中,它所提到的「文化」更像是以證據方式來證明手錶和眼鏡是否屬於珠寶分類,而在 ChatGPT-o1 當中,「文化」是做為比較的項目,從歷史角度來分析這五樣物品的象徵意義與流變,這一部分,塔塔個人更喜歡 ChatGPT-o1 給出的結果。
▉ Gemini Deep Research
最後是 Gemini 的 Deep Research 模型!同樣的問題丟入 Gemini 當中,它會先將計畫的大綱列出來,使用者可以編輯 Gemini 所提供的研究計畫項目,當開始進行推理的時候,Gemini 會自動跳出側邊的推理視窗,花費的時間大約是 2 分鐘左右,Gemini 所爬梳的資料來源比起 Grok 3 或 ChatGPT-o1 來的要多。
- 完整推理過程與結果:Gemini Deep Research
▼ Gemini 深入研究結果畫面

同樣與 Grok 3 比較,Gemini 的推理速度雖然比 Grok 3 慢了點,但是爬梳的資料量比起 Grok 3 來說要多上更多,Grok 3 爬梳了 32 個資料來源,而 Gemini 則是爬梳了破百個資料來源,在來源的豐富度與多元性來說,Gemini 的更豐富,但是容易出現冗贅的研究項目,使用者必須自己手動調整,Grok 3 自動分析的項目精準度稍微好一點。
總結
經過與 ChatGPT-o1、Gemini Deep Research 兩個推理模型的初步比較後,塔塔認為 Grok 3 適合需要在短時間內得到相對詳細且有依據的資料與論證的使用者,例如臨時需要報告的學生或是上班族,非常適合使用 Grok 3,免費、推理速度快且內容詳細程度屬於中上,架構也夠清晰,對於有急用的人來說足夠了。
但是如果是需要做詳細的研究報告的話,那可能會需要再請 Grok 3 進行更精確、更多面向的推理研究,同樣會需要使用者自己調整、設定。
首圖來源:xAI