AI 研究員 Aran Komatsuzaki 近日針對各大模型的分詞工具(Tokenizer)進行跨語言橫評,結果顯示 Anthropic 旗下的 Claude 模型在處理中文時效率極低,用戶在支付同樣費用的情況下,處理的內容卻比其他模型少了一大截,這種現象被社群稱為「中文稅」。
各語言分詞效率橫評
研究者採用了 AI 領域知名的論文《苦澀的教訓》(The Bitter Lesson)作為標準樣本,將其翻譯成九種語言後,分別輸入 OpenAI、Gemini、Qwen、DeepSeek、Kimi 以及 Claude 六家模型的分詞工具。
實驗以「英文原文在 OpenAI 分詞工具上的 Token 數」作為 1 倍基準。數據顯示,在處理相同的中文內容時,各模型的表現差距懸殊。
中國語言模型 Kimi 的 Token 消耗僅為基準的 0.81 倍,Qwen 則為 0.85 倍。這意味著在這些模型中,中文的壓縮效率甚至超越了英文。
而OpenAI 表現尚可,中文 Token 消耗為基準的 1.15 倍,反映出其分詞器對主流外語有一定的優化。在中文處理上表現最差的是 Claude ,消耗高達基準的 1.65 倍,比 OpenAI 多出 50%,甚至比 Kimi 多出一倍。而在印地語(Hindi)上,Claude 的消耗量更突破了基準的 3 倍。
為什麼同樣的中文,在 Claude 上更貴?
這項差距的根源在於「分詞器」的訓練策略。分詞器是 AI 模型理解文字的第一道關卡,負責將文字切分為 Token 單位。
Aran 的結論指出:「誰的市場大,誰就更省 Token。」分詞器的效率高度依賴於訓練數據中各語言的佔比。國產模型如 Kimi 和 Qwen 在訓練中納入了海量中文語料,因此其分詞器能高效地將中文字詞組「打包」;反觀 Anthropic 早期數據高度偏向英文,導致其分詞器在處理中文時只能採取「細碎切割」的策略,同樣一句話被拆成了更多塊,進而推高了 Token 總量。
用戶面臨的實質損影響
分詞效率低落並非單純的技術指標,它對用戶而言意味著多重損失。由於 API 計費以 Token 為單位,中文用戶使用 Claude 的實質開發成本比其他模型貴了近 65%。此外,模型生成的 Token 越多,推理時間就越長,這會導致用戶感受到明顯的延遲。
另一方面,儘管 Claude 以超長上下文窗口聞名,但由於分詞效率低,同樣的窗口容量在中文場景下能容納的實際資訊量比競爭對手少了大約 40%,導致模型更快達到記憶上限。
這場橫評再次提醒了 AI 使用者,語言優化程度將直接影響模型費用。對於重度中文用戶而言,在追求模型邏輯能力的同時,這份「中文稅」帳單或許是選擇 Claude 前必須權衡的現實。