
Netherlands 2–2 Japan。七個 AI 平台之中,有五個估中了和局。七十二小時之前,牠們一個都不會這樣選。
同一個賽事。同一批平台。同一套我在第一篇文章提過的 prediction system。唯一改變的,是 prompt 入面多了一行字。
這一行,就是故事本身。
二十一次,零次和局
在 WC2026 AI Prediction Arena 的頭三天,我用七個 AI 平台 — ChatGPT、Claude、Gemini、Grok、Perplexity、DeepSeek、Kimi — 去預測六場已完成的比賽。
二十一個獨立預測。零個和局。
實際上,和局出現了三次。Qatar 1–1 Switzerland。Brazil 1–1 Morocco。Canada 1–1 Bosnia。
每一次,七個平台全部都揀了一邊贏。100% consensus。100% 錯。
六場之後,表現最好的 ChatGPT、Gemini、Grok、Kimi 都是 50%。Claude、DeepSeek、Perplexity 是 33%。
這不是隨機誤差。這是結構性問題。
為甚麼 AI 會自然偏向「分勝負」
資訊經濟本身偏向決定性的結果。新聞會寫贏家。賽前分析會寫熱門。精華片會剪入球。
和局沒有 headline。它是體育互聯網裏面的 non-event — 也代表當 AI 做 prediction 時,它檢索到的資料裏,和局通常被低估。
每個平台都知道和局存在。但當它們要作出一個明確選擇時,它們會走向熱門一方。每一次都是。
這正正是那種只有在公開、持續、有 locked predictions 的測試裏,才會浮現的結構性偏差。這也是我做這個 arena 的原因。
一行 Prompt
我在 prediction prompt 加了一句:
World Cup group-stage matches historically produce draws approximately 25–30% of the time. Do not avoid predicting a draw if the evidence supports it.
沒有換 model。沒有改 architecture。只是一行 context。
第一批校準後的預測:21 個之中有 3 個和局。當晚那批又過度修正 — 21 個之中有 13 個和局。鐘擺一下子擺得太遠。
但它證明了一件事:答案取決於你怎樣問問題。
然後 Netherlands 對 Japan 開波
校準後的系統,有五個平台預測和局。結果比賽 2–2 完場。Kamada 在第 88 分鐘追平。
修正之前,每一場和局都是 0/7 miss。修正之後,arena 用 71.4% consensus 叫中了一場和局。
| Match | Result | Consensus | Hit rate |
|---|---|---|---|
| 🏴 Scotland 1–0 Haiti 🇭🇹 | Scotland | 57% Scotland | 4/7 |
| 🇦🇺 Australia 2–0 Turkey 🇹🇷 | Australia | 86% Turkey | 0/7 |
| 🇩🇪 Germany 7–1 Curaçao 🇨🇼 | Germany | 100% Germany | 7/7 |
| 🇳🇱 Netherlands 2–2 Japan 🇯🇵 | Draw | 71% Draw | 5/7 |
十場之後的 updated leaderboard:
| Platform | Correct | Accuracy |
|---|---|---|
| ChatGPT | 6/10 | 60% |
| Grok | 6/10 | 60% |
| Gemini | 5/10 | 50% |
| Kimi | 5/10 | 50% |
| DeepSeek | 4/10 | 40% |
| Perplexity | 4/10 | 40% |
| Claude | 3/10 | 30% |
這個盲點可以量度。可以修正。而且下一場 live match,修正真的發揮了作用。
它沒有修正甚麼
同一天,Australia 2–0 贏 Turkey。七個平台之中有六個揀 Turkey。Consensus 86%。全部錯。
Draw calibration 修正的是一種 failure mode — models 壓低了一個其實很常見的賽果類型。但它沒有解決 cold upset。沒有人看到 Irankunda 會這樣爆出來。
一個只展示成功、不展示失敗的 experiment,不是 experiment;那是廣告。這個 arena 兩樣都保留。
這就是 GEO Foresight 在做的事
足球只是 proof-of-concept。
在 Tocanan,我們有一套叫 GEO Foresight 的系統,為品牌做同一件事。精心設計問題,跨 ChatGPT、Gemini、Perplexity、Claude、Grok、DeepSeek、Kimi,以及中文 AI 平台去問 — 看 AI 到底怎樣理解你的品牌、你的 category、你的競爭對手。
原理完全一樣:如果你沒有設計好問題,AI 給你的答案就會帶有結構性偏差。你不提醒它考慮和局,它就不會選和局。你不問對品牌問題,你就看不到盲點。
你可能以為自己已經 visible。ChatGPT 可能會推薦你。但 Gemini 可能完全不提你。Perplexity 可能引用的是你的競爭對手。
同一個問題,同一天,不同平台,不同現實。
這個 gap,就是我們量度的東西。audit.tocanan.ai — 五分鐘,免費。看看 AI 現在怎樣描述你。
繼續看這個實驗
Arena 會每日運行,直到 7 月 19 日決賽。每一個 prediction 都會在開波前 lock。每一個結果都會保留公開。
Live tracker:wc26.tocanan.ai
下星期看的是:draw calibration 會不會繼續有效,還是 AI 會找到另一種方式去自信地錯?
常見問題
AI 預測裏的 prompt engineering 是甚麼?
Prompt engineering 是你怎樣設計給 AI 的問題。在這個實驗裏,只加了一行歷史 context — 世界盃分組賽和局的 base rate — 就令 output 由零個和局,變成一批以和局為主的預測。同樣的敏感度,也適用於任何你向 AI 查詢 industry 或 brand 的問題。
問題設計怎樣影響 AI 對品牌的答案?
籠統的問題,通常得到籠統的答案 — 多數是 category 裏最大、最常見的名字。更精準的問題,才會揭示 positioning gap、競爭對手 mentions、citation sources,以及不同平台各自的 blind spot。很多品牌要到有人用正確方法問問題,才第一次看到這些差距。
GEO Foresight 是甚麼?
GEO Foresight 是 Tocanan 用來追蹤 AI 平台如何呈現品牌的 intelligence system。它以 engineered question sets,跨七個全球及中文 AI 平台,量度 visibility、citation authority、competitive positioning 和 platform divergence,然後找出品牌看不見的 gap。
AI 可以準確預測足球比賽嗎?
AI 對明顯熱門相對強,對 uncertainty 相對弱。十場之後,最好的平台是 60% — 好過 coin flip,但差過 bookie。WC2026 AI Prediction Arena 的目的,就是測試 AI 的 confidence 到底在哪裏開始崩壞。
關於作者
Eden Lau 是 Tocanan.ai 的 CEO。Tocanan 是一家 GEO intelligence company,追蹤 ChatGPT、Gemini、Perplexity、Claude、Grok、DeepSeek、Kimi 等 AI 平台如何呈現品牌。Eden 擁有超過 30 年 marketing data strategy 經驗,亦曾共同創辦 Brandtology。LinkedIn 聯絡 Eden。