同樣內容中文貴 65%！跨模型分詞橫評：Claude 用戶慘繳最高「中文稅」

AI 研究員 Aran Komatsuzaki 近日針對各大模型的分詞工具（Tokenizer）進行跨語言橫評，結果顯示 Anthropic 旗下的 Claude 模型在處理中文時效率極低，用戶在支付同樣費用的情況下，處理的內容卻比其他模型少了一大截，這種現象被社群稱為「中文稅」。

Table of Contents

各語言分詞效率橫評

研究者採用了 AI 領域知名的論文《苦澀的教訓》（The Bitter Lesson）作為標準樣本，將其翻譯成九種語言後，分別輸入 OpenAI、Gemini、Qwen、DeepSeek、Kimi 以及 Claude 六家模型的分詞工具。

實驗以「英文原文在 OpenAI 分詞工具上的 Token 數」作為 1 倍基準。數據顯示，在處理相同的中文內容時，各模型的表現差距懸殊。

中國語言模型 Kimi 的 Token 消耗僅為基準的 0.81 倍，Qwen 則為 0.85 倍。這意味著在這些模型中，中文的壓縮效率甚至超越了英文。

而OpenAI 表現尚可，中文 Token 消耗為基準的 1.15 倍，反映出其分詞器對主流外語有一定的優化。在中文處理上表現最差的是 Claude ，消耗高達基準的 1.65 倍，比 OpenAI 多出 50%，甚至比 Kimi 多出一倍。而在印地語（Hindi）上，Claude 的消耗量更突破了基準的 3 倍。

Follow-up on non-English token-inefficiency with more model-language pairs:

– Chinese is cheaper than English on major Chinese models
– Gemini and Qwen provide least non-English tax
– Anthropic has the highest tax by far; Kimi is next
– Hindi is the worst-covered language here,… https://t.co/imeRUrzwjD pic.twitter.com/DEM84FmHoV
— Aran Komatsuzaki (@arankomatsuzaki) April 28, 2026

為什麼同樣的中文，在 Claude 上更貴？

這項差距的根源在於「分詞器」的訓練策略。分詞器是 AI 模型理解文字的第一道關卡，負責將文字切分為 Token 單位。

Aran 的結論指出：「誰的市場大，誰就更省 Token。」分詞器的效率高度依賴於訓練數據中各語言的佔比。國產模型如 Kimi 和 Qwen 在訓練中納入了海量中文語料，因此其分詞器能高效地將中文字詞組「打包」；反觀 Anthropic 早期數據高度偏向英文，導致其分詞器在處理中文時只能採取「細碎切割」的策略，同樣一句話被拆成了更多塊，進而推高了 Token 總量。