Token 灌水是什麼?如何檢測 API 是否灌 Token(2026 完整指南)
Token 灌水(token padding)是 AI API 中轉站透過多算 token 數量來謀取利益的手法。本文解釋原理、辨識方式與用 BazaarLink Probe 一鍵檢測的方法。
你是否曾懷疑,同樣的 prompt 丟給不同服務,帳單上的 token 數量卻差很多?這不一定是你的錯覺。部分 AI API 中轉站會透過「token 灌水」的方式,在 usage 欄位回報虛假數字,讓你多付費。本文說明這個問題的原理、如何辨識,以及怎麼用工具自動偵測。
什麼是 Token 灌水?
Token 灌水(token padding,也稱 token inflation)是指 AI API 中轉站在呼叫完上游模型後,修改回傳的 usage 物件,將實際消耗的 token 數膨脹後再回傳給你:
// 上游模型實際回傳
{
"usage": {
"prompt_tokens": 120,
"completion_tokens": 80,
"total_tokens": 200
}
}
// 中轉站竄改後回傳給你
{
"usage": {
"prompt_tokens": 156, // 膨脹 30%
"completion_tokens": 104, // 膨脹 30%
"total_tokens": 260
}
}
由於多數開發者不會逐一核對 usage,輕微的灌水(5–15%)幾乎不會被注意。但若每月用量達數百萬 token,實際多付的費用相當可觀。
Token 灌水 vs 偷換模型:哪個更難發現?
| 問題類型 | 手法 | 影響 | 難以察覺程度 |
|---|---|---|---|
| 偷換模型 | 用低價模型(如 GPT-3.5)取代你指定的高價模型(如 GPT-4o) | 回應品質下降,但你多付了高價模型的費用 | 中等(可透過能力測試發現) |
| Token 灌水 | 使用正確模型,但 usage 欄位虛報 token 數 | 回應品質正常,但你多付了 5–30% 的費用 | 高(需比對原始 token 計數) |
| System Prompt 注入 | 中轉站在你的 prompt 前後插入隱藏指令 | 模型行為被操控,且你的 prompt_tokens 會因注入而增加 | 高(需比對 token 計數與回應行為) |
灌水幅度通常有多大?
根據公開研究與社群回報,token 灌水的幅度差異很大:
- 輕微(5–10%):最常見,幾乎不被注意,但長期累積可觀
- 中度(10–20%):需要仔細核帳才能發現
- 嚴重(30% 以上):單次請求的差異就很明顯
Note: 試算範例
若你每月用量是 500 萬 prompt_tokens(GPT-4o 計費為 $2.50/1M tokens),灌水 15% 就代表你多付了 750K token × $2.50 = 每月多付約 $1.875 美元。規模化後(每月 5000 萬 token)就是約 $18.75 美元 的隱形損失。
如何手動判斷是否灌 Token?
方法 1:發送已知長度的 prompt
用 tiktoken 或 tokenizer 工具計算你的 prompt 確切 token 數,然後對比 API 回傳的 usage.prompt_tokens:
# Python 範例(需安裝 tiktoken)
import tiktoken, openai
enc = tiktoken.encoding_for_model("gpt-4o")
prompt = "What is 2+2?"
expected_tokens = len(enc.encode(prompt))
resp = client.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user", "content": prompt}]
)
actual = resp.usage.prompt_tokens
diff_pct = (actual - expected_tokens) / expected_tokens * 100
print(f"預期: {expected_tokens}, 實際回報: {actual}, 差距: {diff_pct:.1f}%")
方法 2:用 BazaarLink Probe 自動偵測
手動計算費時,且需要對不同模型了解其 tokenizer 差異。更快的方法是使用 BazaarLink Probe,它會自動執行多項標準化測試,包含 token 計數比對,並輸出 0–100 評分與詳細報告。
- 輸入你的 API 端點與 Key
- Probe 自動發送精確計算過的 prompt
- 比對回傳 usage 與預期值
- 差距超過閾值 → 標記「Token 灌水風險」
- 同時檢測偷換模型、system prompt 注入等其他風險
選擇 AI API 供應商:計費透明度比較
避免 token 灌水最根本的方法,是選擇直連官方供應商或有明確透明計費的平台。以下是幾個主要選項的比較:
| 平台 | 計費透明度 | 台灣統一發票 | 中轉站風險 | 模型數量 |
|---|---|---|---|---|
| BazaarLink | 直連官方供應商,帳單可對照 | ✓ 台灣公司開立 | 低(Probe 工具可驗證) | 主流 AI 模型 |
| SiliconFlow(硅基流動) | 中國大陸計費,人民幣 | ✗ 無台灣發票 | 中等 | 100+ |
| Groq | 美國 USD 計費,速度優先 | ✗ 無台灣發票 | 低(自有推理基礎設施) | 20+ |
| Together AI | 美國 USD 計費 | ✗ 無台灣發票 | 低(自有推理) | 50+ |
| 不明中轉站 | 不明,無公示費率 | ✗ | 高 | 不定 |
Token 灌水的技術背景
LLM 供應鏈攻擊(LLM supply chain attacks)是近年學術界與資安研究界持續關注的議題。論文 Your Agent Is Mine: Measuring Malicious Intermediary Attacks on the LLM Supply Chain(ACM CCS 2026)系統化分類了中轉站的攻擊手法,包含:
- AC-1 Payload Injection:偷換模型
- AC-1.b Conditional Injection:條件式 system prompt 注入
- Token Inflation:token 灌水(usage 欄位竄改)
- AC-2 Secret Exfiltration:金鑰竊取風險
BazaarLink Probe 的設計參考了此研究框架,涵蓋上述各攻擊類別的自動化偵測。
結論
Token 灌水是 AI API 中轉站牟利的隱性手法,難以肉眼察覺,但可以透過自動化工具系統性地偵測。無論你是個人開發者還是企業用戶,在選擇 AI API 供應商時,計費透明度與可驗證性都是重要考量。
立即前往 BazaarLink Probe 檢測你目前使用的端點,確認是否存在 token 灌水或其他供應鏈風險。