Tocanan | AI 有盲點。我用一行 Prompt 修正了。

WC2026 AI 預測競技場 — Prompt Engineering 如何修正 AI 和波盲點 — 七個 AI 平台。零個和波預測。一行 Prompt 改變了一切。

Netherlands 2–2 Japan。七個 AI 平台之中，有五個估中了和局。七十二小時之前，牠們一個都不會這樣選。

同一個賽事。同一批平台。同一套我在第一篇文章提過的 prediction system。唯一改變的，是 prompt 入面多了一行字。

這一行，就是故事本身。

二十一次，零次和局

在 WC2026 AI Prediction Arena 的頭三天，我用七個 AI 平台 — ChatGPT、Claude、Gemini、Grok、Perplexity、DeepSeek、Kimi — 去預測六場已完成的比賽。

二十一個獨立預測。零個和局。

實際上，和局出現了三次。Qatar 1–1 Switzerland。Brazil 1–1 Morocco。Canada 1–1 Bosnia。

每一次，七個平台全部都揀了一邊贏。100% consensus。100% 錯。

六場之後，表現最好的 ChatGPT、Gemini、Grok、Kimi 都是 50%。Claude、DeepSeek、Perplexity 是 33%。

這不是隨機誤差。這是結構性問題。

為甚麼 AI 會自然偏向「分勝負」

資訊經濟本身偏向決定性的結果。新聞會寫贏家。賽前分析會寫熱門。精華片會剪入球。

和局沒有 headline。它是體育互聯網裏面的 non-event — 也代表當 AI 做 prediction 時，它檢索到的資料裏，和局通常被低估。

每個平台都知道和局存在。但當它們要作出一個明確選擇時，它們會走向熱門一方。每一次都是。

這正正是那種只有在公開、持續、有 locked predictions 的測試裏，才會浮現的結構性偏差。這也是我做這個 arena 的原因。

一行 Prompt

我在 prediction prompt 加了一句：

World Cup group-stage matches historically produce draws approximately 25–30% of the time. Do not avoid predicting a draw if the evidence supports it.

沒有換 model。沒有改 architecture。只是一行 context。

第一批校準後的預測：21 個之中有 3 個和局。當晚那批又過度修正 — 21 個之中有 13 個和局。鐘擺一下子擺得太遠。

但它證明了一件事：答案取決於你怎樣問問題。

然後 Netherlands 對 Japan 開波

校準後的系統，有五個平台預測和局。結果比賽 2–2 完場。Kamada 在第 88 分鐘追平。

修正之前，每一場和局都是 0/7 miss。修正之後，arena 用 71.4% consensus 叫中了一場和局。

Match	Result	Consensus	Hit rate
🏴 Scotland 1–0 Haiti 🇭🇹	Scotland	57% Scotland	4/7
🇦🇺 Australia 2–0 Turkey 🇹🇷	Australia	86% Turkey	0/7
🇩🇪 Germany 7–1 Curaçao 🇨🇼	Germany	100% Germany	7/7
🇳🇱 Netherlands 2–2 Japan 🇯🇵	Draw	71% Draw	5/7

十場之後的 updated leaderboard：

Platform	Correct	Accuracy
ChatGPT	6/10	60%
Grok	6/10	60%
Gemini	5/10	50%
Kimi	5/10	50%
DeepSeek	4/10	40%
Perplexity	4/10	40%
Claude	3/10	30%

這個盲點可以量度。可以修正。而且下一場 live match，修正真的發揮了作用。

它沒有修正甚麼

同一天，Australia 2–0 贏 Turkey。七個平台之中有六個揀 Turkey。Consensus 86%。全部錯。

Draw calibration 修正的是一種 failure mode — models 壓低了一個其實很常見的賽果類型。但它沒有解決 cold upset。沒有人看到 Irankunda 會這樣爆出來。

一個只展示成功、不展示失敗的 experiment，不是 experiment；那是廣告。這個 arena 兩樣都保留。

這就是 GEO Foresight 在做的事

足球只是 proof-of-concept。

在 Tocanan，我們有一套叫 GEO Foresight 的系統，為品牌做同一件事。精心設計問題，跨 ChatGPT、Gemini、Perplexity、Claude、Grok、DeepSeek、Kimi，以及中文 AI 平台去問 — 看 AI 到底怎樣理解你的品牌、你的 category、你的競爭對手。

原理完全一樣：如果你沒有設計好問題，AI 給你的答案就會帶有結構性偏差。你不提醒它考慮和局，它就不會選和局。你不問對品牌問題，你就看不到盲點。

你可能以為自己已經 visible。ChatGPT 可能會推薦你。但 Gemini 可能完全不提你。Perplexity 可能引用的是你的競爭對手。

同一個問題，同一天，不同平台，不同現實。

這個 gap，就是我們量度的東西。audit.tocanan.ai — 五分鐘，免費。看看 AI 現在怎樣描述你。

繼續看這個實驗

Arena 會每日運行，直到 7 月 19 日決賽。每一個 prediction 都會在開波前 lock。每一個結果都會保留公開。

Live tracker：wc26.tocanan.ai

下星期看的是：draw calibration 會不會繼續有效，還是 AI 會找到另一種方式去自信地錯？

常見問題

AI 預測裏的 prompt engineering 是甚麼？

Prompt engineering 是你怎樣設計給 AI 的問題。在這個實驗裏，只加了一行歷史 context — 世界盃分組賽和局的 base rate — 就令 output 由零個和局，變成一批以和局為主的預測。同樣的敏感度，也適用於任何你向 AI 查詢 industry 或 brand 的問題。

問題設計怎樣影響 AI 對品牌的答案？

籠統的問題，通常得到籠統的答案 — 多數是 category 裏最大、最常見的名字。更精準的問題，才會揭示 positioning gap、競爭對手 mentions、citation sources，以及不同平台各自的 blind spot。很多品牌要到有人用正確方法問問題，才第一次看到這些差距。

GEO Foresight 是甚麼？

GEO Foresight 是 Tocanan 用來追蹤 AI 平台如何呈現品牌的 intelligence system。它以 engineered question sets，跨七個全球及中文 AI 平台，量度 visibility、citation authority、competitive positioning 和 platform divergence，然後找出品牌看不見的 gap。

AI 可以準確預測足球比賽嗎？

AI 對明顯熱門相對強，對 uncertainty 相對弱。十場之後，最好的平台是 60% — 好過 coin flip，但差過 bookie。WC2026 AI Prediction Arena 的目的，就是測試 AI 的 confidence 到底在哪裏開始崩壞。

關於作者

Eden Lau 是 Tocanan.ai 的 CEO。Tocanan 是一家 GEO intelligence company，追蹤 ChatGPT、Gemini、Perplexity、Claude、Grok、DeepSeek、Kimi 等 AI 平台如何呈現品牌。Eden 擁有超過 30 年 marketing data strategy 經驗，亦曾共同創辦 Brandtology。LinkedIn 聯絡 Eden。