
我問了七個 AI 平台,今年夏天最大型足球賽事誰會奪冠。五個說西班牙,一個說法國,一個說巴西。同一條問題、同一天、同一組即時數據。
我們追蹤的所有問題平均分歧度為 58/100 — 0 代表完全一致,100 代表完全混亂。
這種分歧,正是重點所在。
系統搭建
我建立了一套系統,透過 ChatGPT、Claude、Gemini、Grok、Perplexity、DeepSeek 和 Kimi 各自的即時網路搜尋功能進行查詢 — 確保每個模型根據今天的資訊作答,而非去年的訓練數據。它們的答案會輸入一個共識引擎,不只是簡單計票:而是根據每個平台的信心度和過往準確率進行加權,讓整合預測在賽事進行中不斷學習該信任誰。
完整性規則十分嚴格 — 每個預測在開賽時鎖定。任何模型都不能靠「預測」一個它可以直接查到的結果來獲得分數。
所有數據都公開在 wc26.tocanan.ai 的準確度排行榜上,包括共識本身,也按照與個別平台相同的規則評分。假設源自數十年的預測研究:一個經過良好加權的整合預測,應該能勝過其中最強的單一成員。到 7 月 19 日決賽時,我們就會知道答案。
透明披露:這套系統本身也是用 AI 搭建的 — 具體來說是 Anthropic 的 Claude Fable 5,負責共識加權、完整性規則和檢索架構。
為什麼一個做行銷的人在做預測科學
因為分歧本身就是故事。
如果七個 AI 平台在同一天被問同一個問題,對一場足球賽給出不同答案 — 你覺得它們對你的公司又說了什麼?
我們為一個知名品牌做了類似的測試。ChatGPT 直接推薦了它們。Gemini 完全沒有提及。同一個類別、同一條查詢,兩個截然不同的現實。那個品牌花了二十年優化一個搜尋引擎,結果在新的七個搜尋引擎上完全隱形。
當潛在客戶問 ChatGPT「最好的 [你的類別] 工具是什麼?」,那個答案也是一種預測。它的組成方式完全相同:檢索、加權、綜合。而它在不同平台之間的分歧程度,與封面圖片上的預測一樣劇烈。大多數品牌從未檢查過。
這正是我們在 Tocanan.ai 從事的專業:GEO — 生成式引擎優化。這個追蹤器是平台分歧真實、可量化、且影響深遠的公開證據。排行榜不是記分板,而是證據。
追蹤這個實驗
這套系統每天運行,更新也是:
wc26.tocanan.ai — 即時競技場,每日更新:每個預測、共識、分歧指數,以及隨結果出爐的準確度排行榜。請加入書籤。
每週一深度分析:準確度排名、共識引擎學到了什麼,以及這對 AI 平台如何談論品牌意味著什麼。
兩者都會如實呈現數據 — 命中和失誤,排行榜不經編輯。一個隱藏失敗的實驗不是實驗,而是廣告。
如果你想看看七個 AI 先知目前對你的品牌說了什麼,審計只需五分鐘:audit.tocanan.ai
延伸閱讀
常見問題
什麼是 AI 預測分歧?
AI 預測分歧衡量不同 AI 平台在被問到相同問題時的分歧程度。我們的追蹤器每天查詢七大主要 AI 平台,並計算從 0(完全一致)到 100(完全分歧)的分歧指數。品牌、產品和服務相關問題同樣存在這種分歧。
生成式引擎優化(GEO)如何運作?
GEO 是優化你的品牌在 ChatGPT、Gemini、Perplexity、Claude 等 AI 生成式回答中呈現方式的實踐。與只針對單一搜尋引擎的傳統 SEO 不同,GEO 確保你的品牌在所有主要 AI 平台上同時保持可見、準確並獲得推薦。
AI 平台對足球預測意見一致嗎?
不一致 — 我們的每日追蹤顯示,七個 AI 平台在回答相同的足球預測問題時,平均分歧度為 58/100。每個平台檢索不同的來源、以不同方式加權資訊,並得出不同的結論。這種不一致性同樣適用於 AI 平台如何描述品牌和推薦產品。
關於作者
Eden Lau 是 Tocanan.ai 的行政總裁,該公司專注於 GEO 情報,追蹤品牌在 ChatGPT、Gemini、Perplexity、Claude、Grok、DeepSeek 和 Kimi 等 AI 平台上的呈現方式。他擁有超過 30 年的行銷數據策略經驗,曾共同創立 Brandtology。在 LinkedIn 上聯繫。