WC2026 AI 預測競技場 — Prompt Engineering 如何修正 AI 和波盲點
七個 AI 平台。零個和波預測。一行 Prompt 改變了一切。

Netherlands 2–2 Japan。七個 AI 平台之中,有五個估中了和局。七十二小時之前,牠們一個都不會這樣選。

同一個賽事。同一批平台。同一套我在第一篇文章提過的 prediction system。唯一改變的,是 prompt 入面多了一行字。

這一行,就是故事本身。

二十一次,零次和局

WC2026 AI Prediction Arena 的頭三天,我用七個 AI 平台 — ChatGPT、Claude、Gemini、Grok、Perplexity、DeepSeek、Kimi — 去預測六場已完成的比賽。

二十一個獨立預測。零個和局。

實際上,和局出現了三次。Qatar 1–1 Switzerland。Brazil 1–1 Morocco。Canada 1–1 Bosnia。

每一次,七個平台全部都揀了一邊贏。100% consensus。100% 錯。

六場之後,表現最好的 ChatGPT、Gemini、Grok、Kimi 都是 50%。Claude、DeepSeek、Perplexity 是 33%。

這不是隨機誤差。這是結構性問題。

為甚麼 AI 會自然偏向「分勝負」

資訊經濟本身偏向決定性的結果。新聞會寫贏家。賽前分析會寫熱門。精華片會剪入球。

和局沒有 headline。它是體育互聯網裏面的 non-event — 也代表當 AI 做 prediction 時,它檢索到的資料裏,和局通常被低估。

每個平台都知道和局存在。但當它們要作出一個明確選擇時,它們會走向熱門一方。每一次都是。

這正正是那種只有在公開、持續、有 locked predictions 的測試裏,才會浮現的結構性偏差。這也是我做這個 arena 的原因。

一行 Prompt

我在 prediction prompt 加了一句:

World Cup group-stage matches historically produce draws approximately 25–30% of the time. Do not avoid predicting a draw if the evidence supports it.

沒有換 model。沒有改 architecture。只是一行 context。

第一批校準後的預測:21 個之中有 3 個和局。當晚那批又過度修正 — 21 個之中有 13 個和局。鐘擺一下子擺得太遠。

但它證明了一件事:答案取決於你怎樣問問題。

然後 Netherlands 對 Japan 開波

校準後的系統,有五個平台預測和局。結果比賽 2–2 完場。Kamada 在第 88 分鐘追平。

修正之前,每一場和局都是 0/7 miss。修正之後,arena 用 71.4% consensus 叫中了一場和局。

Match Result Consensus Hit rate
🏴 Scotland 1–0 Haiti 🇭🇹 Scotland 57% Scotland 4/7
🇦🇺 Australia 2–0 Turkey 🇹🇷 Australia 86% Turkey 0/7
🇩🇪 Germany 7–1 Curaçao 🇨🇼 Germany 100% Germany 7/7
🇳🇱 Netherlands 2–2 Japan 🇯🇵 Draw 71% Draw 5/7

十場之後的 updated leaderboard:

Platform Correct Accuracy
ChatGPT 6/10 60%
Grok 6/10 60%
Gemini 5/10 50%
Kimi 5/10 50%
DeepSeek 4/10 40%
Perplexity 4/10 40%
Claude 3/10 30%

這個盲點可以量度。可以修正。而且下一場 live match,修正真的發揮了作用。

它沒有修正甚麼

同一天,Australia 2–0 贏 Turkey。七個平台之中有六個揀 Turkey。Consensus 86%。全部錯。

Draw calibration 修正的是一種 failure mode — models 壓低了一個其實很常見的賽果類型。但它沒有解決 cold upset。沒有人看到 Irankunda 會這樣爆出來。

一個只展示成功、不展示失敗的 experiment,不是 experiment;那是廣告。這個 arena 兩樣都保留。

這就是 GEO Foresight 在做的事

足球只是 proof-of-concept。

Tocanan,我們有一套叫 GEO Foresight 的系統,為品牌做同一件事。精心設計問題,跨 ChatGPT、Gemini、Perplexity、Claude、Grok、DeepSeek、Kimi,以及中文 AI 平台去問 — 看 AI 到底怎樣理解你的品牌、你的 category、你的競爭對手。

原理完全一樣:如果你沒有設計好問題,AI 給你的答案就會帶有結構性偏差。你不提醒它考慮和局,它就不會選和局。你不問對品牌問題,你就看不到盲點。

你可能以為自己已經 visible。ChatGPT 可能會推薦你。但 Gemini 可能完全不提你。Perplexity 可能引用的是你的競爭對手。

同一個問題,同一天,不同平台,不同現實。

這個 gap,就是我們量度的東西。audit.tocanan.ai — 五分鐘,免費。看看 AI 現在怎樣描述你。

繼續看這個實驗

Arena 會每日運行,直到 7 月 19 日決賽。每一個 prediction 都會在開波前 lock。每一個結果都會保留公開。

Live tracker:wc26.tocanan.ai

下星期看的是:draw calibration 會不會繼續有效,還是 AI 會找到另一種方式去自信地錯?

常見問題

AI 預測裏的 prompt engineering 是甚麼?

Prompt engineering 是你怎樣設計給 AI 的問題。在這個實驗裏,只加了一行歷史 context — 世界盃分組賽和局的 base rate — 就令 output 由零個和局,變成一批以和局為主的預測。同樣的敏感度,也適用於任何你向 AI 查詢 industry 或 brand 的問題。

問題設計怎樣影響 AI 對品牌的答案?

籠統的問題,通常得到籠統的答案 — 多數是 category 裏最大、最常見的名字。更精準的問題,才會揭示 positioning gap、競爭對手 mentions、citation sources,以及不同平台各自的 blind spot。很多品牌要到有人用正確方法問問題,才第一次看到這些差距。

GEO Foresight 是甚麼?

GEO Foresight 是 Tocanan 用來追蹤 AI 平台如何呈現品牌的 intelligence system。它以 engineered question sets,跨七個全球及中文 AI 平台,量度 visibility、citation authority、competitive positioning 和 platform divergence,然後找出品牌看不見的 gap。

AI 可以準確預測足球比賽嗎?

AI 對明顯熱門相對強,對 uncertainty 相對弱。十場之後,最好的平台是 60% — 好過 coin flip,但差過 bookie。WC2026 AI Prediction Arena 的目的,就是測試 AI 的 confidence 到底在哪裏開始崩壞。

關於作者

Eden Lau 是 Tocanan.ai 的 CEO。Tocanan 是一家 GEO intelligence company,追蹤 ChatGPT、Gemini、Perplexity、Claude、Grok、DeepSeek、Kimi 等 AI 平台如何呈現品牌。Eden 擁有超過 30 年 marketing data strategy 經驗,亦曾共同創辦 Brandtology。LinkedIn 聯絡 Eden