大規模言語モデル(LLM)タイプの生成AI、chatGPTを使用するにあたり、“トークン”という概念をしっかり理解しておくことが重要です。本記事では、「chatGPTのトークンとはそもそも何なのか?」「どのような場面で登場するのか?」「なぜ重要な概念なのか?」を分かりやすく解説します。日常生活では馴染みがない概念ですが、chatGPT内の専門用語として覚えておきたいところです。トークンを理解しておけば、chatGPTをより便利に、より快適に活用することができますから、是非この記事で学んでいきましょう。
そもそもトークンとは?
chatGPTにおけるトークンとは、テキストの最小単位を表す言葉です。通常、テキストの容量を示す単位として、“文字数”が用いられますよね。それでは、トークンと文字数は何が異なるのでしょうか。
要点からお伝えすると、「1文字=1トークンではない」ということです。トークンを噛み砕いて説明するなら、文字の並びを意味のあるまとまりに分けたものです。ひらがなや漢字などの文字にくわえて、句読点や記号もトークンにカウントされます。
それでは、具体例を挙げてみましょう。「私は東京都出身です。」という文章をトークンで区切ってみると、以下のようになります。「私/は/東/京/都/出/身/で/す/。」一方、同じ意味の文章を英語で記述した場合、トークンは次のように分けられます。
「I/was/born/in/Tokyo/.」
英語ではおおよそ、意味をなす1単語ごとに1トークンと数えられます。日本語ですと、単語の区切りがAIにとっては明確でないため、ひらがな1文字も1トークン扱いになるのです。
“born”という単語を「bo」と「rn」に分けても意味をなしません。しかし、“私は”を「私」という名詞+「は」という助詞に分類することは可能です。このように、日本語と英語では言語の構造が異なるため、トークンを計算する仕組みも違ってきます。
chatGPTのトークンのカウント上限はどれくらい?
トークンが重要になる理由の一つは、「chatGPTの文字数制限はトークン数で制限される」からです。chatGPTでは、一度に処理できるテキストの容量に制限があります。長い文章の要約や翻訳を指示すると、エラーが出たり文章が途切れてしまいます。この上限数は、文字数ではなくトークン数で管理されているのです。chatGPTのトークン数の上限は、モデルによって変わります。
●GPT-3.5:4,096トークン
●GPT-4:32,768トークン
●GPT-4 Turbo:128,000トークン
無料版ユーザーが利用できるGPT-3.5では上限が4,096なのに対し、有料版のGPT-4は8倍の32,768トークンです。2024年に登場した最新版のGPT-4 Turboですと、GPT-4のさらに約4倍という大容量を処理できます。
さて、ここで大事なのが、日本語と英語でトークンの数え方が異なることです。日本語では、ひらがな1文字で1〜2トークン、漢字1文字で2~3トークンとカウントされます。そのため、4,096トークンの場合、日本語だと文字数は2,000字程度に相当します。対して英語だと、およそ15,000字程度が上限になります。
英語は基本的に1単語1トークンと覚えておけばいいのですが、日本語は文字によってトークン数が違い、分かりづらいですよね。特に無料版ユーザーは上限が小さいため、入力する文章が何トークンなのか確認したい場面もあるでしょう。そこで役立つのが、トークン数を簡単に計測できるツール「Tokenizer(トークナイザー)」です。
chatGPTを開発したOpenAI社が公式に提供しているツールで、単純な文字数とトークン数両方を即座に算出してくれます。誰でも自由に使えるため、トークン数が気になる際に活用してみましょう。
トークン数によって変動する料金について解説
トークンを理解しておくべきもう一つの理由は、OpenAI社のchatGPT APIを利用した際にかかるAPI利用料金が、トークン数に応じて計算されるからです。API利用料金は、入力したトークン数と出力したトークン数の双方に課金されます。そして、入力と出力で料金単価が異なる点もポイントです。chatGPTのモデルごとに単価設定が変わりますので、自分が登録するプランの料金体系にきちんと目を通してください。それでは、主なモデルの料金体系を以下にまとめます。
●GPT-4
入力=$30/1Mトークン
出力=$60/1Mトークン
●GPT-4 Turbo
入力=$10/1Mトークン
出力=$30/1Mトークン
●GPT-4o
入力=$2.5/1Mトークン
出力=$10./1Mトークン
●GPT-4o-mini
入力=$0.15/1Mトークン
出力=$0.6/1Mトークン
●GPT-3.5 Turbo
入力=$0.5/1Mトークン
出力=$1.5/1Mトークン
料金体系の傾向として、次の2つを頭に入れておくといいでしょう。
①最新のモデルほど料金単価が安い
②入力よりも出力する方がトークンの単価は高い
その他のモデルに関しても、料金体系が細かく分類されています。また、料金単価は今後変更される可能性があります。必ず最新情報をOpenAI社のホームページなどでチェックするようにしましょう。
まとめ
chatGPTのトークンは、単なる文字数とは異なる概念のため、ややこしく感じるかもしれません。とはいえ、どの文字が何トークンか把握する必要はなく、まとまった文章を「Tokenizer(トークナイザー)」にコピペして、トークン数を算出すれば十分です。長文の作成やコーディングなど、入力ないし出力文字数が膨大になる作業を行う時は、トークンを意識しておきましょう。また、ビジネスでchatGPTのAPIを利用する場合、業務コストにも関わってきます。不必要な文章の入力を避けたり、トークン数の消費量が少ない英語を選択するなど、料金を抑える効率的な使用を心掛けていきたいところです。