AI 大模型語言不平等：英文訓練成本最便宜，簡中是英文 2 倍

近日 X（原 Twitter）用戶 @dylan522p 展示牛津大學研究：GPT-4 和其他常見 LLM 語言模型推理成本差距很大。

英文輸入輸出比其他語言便宜，簡中成本約是英文2倍，西文成本是英文1.5倍，緬甸撣文是英文15倍。理由可追溯至5月牛津大學arXiv預印本論文。

詞元是將自然語言文本轉換成詞元（token）序列的過程，是語言模型處理文本的第一步。LLM計算力成本核算，詞元越多，耗費算力成本越高。毫無疑問，生成式AI商業化趨勢下，算力成本也會轉嫁給用戶，許多AI服務就是照處理詞元量計費。

論文顯示，研究分析17種詞元化方法，同文本轉換成不同語言詞元序列長度差異巨大，即使宣稱支援多語言，也無法做到完全公平。OpenAI GPT3 tokenizer詞元化「你的愛意」，英文只兩個詞元，簡中需八個詞元，即使簡中只有4字元，英文文本有14個字元。

@dylan522p上傳圖片可看到LLM處理一句英文需17個詞元（tokens），處理同樣意思的緬文需198個詞元（tokens），代表緬文處理成本達英文11倍。

The cost of LLM inference varies hugely based on the language for GPT-4 and most other common LLMs.
English is the cheapest.
Chinese is 2x English.
Languages like Shan + Burmese are 15x more expensive.
This is mostly because of how tokenizers work so need to output more tokens pic.twitter.com/Y7De09pb4w

— Dylan Patel (@dylan522p) July 28, 2023