TOPIC

chatGPTのトークンって何?トークンの仕組みをわかりやすく解説

chatGPTのトークン

大規模言語モデル(LLM)タイプの生成AI、chatGPTを使用するにあたり、“トークン”という概念をしっかり理解しておくことが重要です。本記事では、「chatGPTのトークンとはそもそも何なのか?」「どのような場面で登場するのか?」「なぜ重要な概念なのか?」を分かりやすく解説します。日常生活では馴染みがない概念ですが、chatGPT内の専門用語として覚えておきたいところです。トークンを理解しておけば、chatGPTをより便利に、より快適に活用することができますから、是非この記事で学んでいきましょう。

そもそもトークンとは?

chatGPTにおけるトークンとは、テキストの最小単位を表す言葉です。通常、テキストの容量を示す単位として、“文字数”が用いられますよね。それでは、トークンと文字数は何が異なるのでしょうか。
要点からお伝えすると、「1文字=1トークンではない」ということです。トークンを噛み砕いて説明するなら、文字の並びを意味のあるまとまりに分けたものです。ひらがなや漢字などの文字にくわえて、句読点や記号もトークンにカウントされます。

それでは、具体例を挙げてみましょう。「私は東京都出身です。」という文章をトークンで区切ってみると、以下のようになります。「私/は/東/京/都/出/身/で/す/。」一方、同じ意味の文章を英語で記述した場合、トークンは次のように分けられます。
「I/was/born/in/Tokyo/.」
英語ではおおよそ、意味をなす1単語ごとに1トークンと数えられます。日本語ですと、単語の区切りがAIにとっては明確でないため、ひらがな1文字も1トークン扱いになるのです。
“born”という単語を「bo」と「rn」に分けても意味をなしません。しかし、“私は”を「私」という名詞+「は」という助詞に分類することは可能です。このように、日本語と英語では言語の構造が異なるため、トークンを計算する仕組みも違ってきます。

chatGPTのトークンのカウント上限はどれくらい?

トークンが重要になる理由の一つは、「chatGPTの文字数制限はトークン数で制限される」からです。chatGPTでは、一度に処理できるテキストの容量に制限があります。長い文章の要約や翻訳を指示すると、エラーが出たり文章が途切れてしまいます。この上限数は、文字数ではなくトークン数で管理されているのです。chatGPTのトークン数の上限は、モデルによって変わります。

●GPT-3.5:4,096トークン
●GPT-4:32,768トークン
●GPT-4 Turbo:128,000トークン

無料版ユーザーが利用できるGPT-3.5では上限が4,096なのに対し、有料版のGPT-4は8倍の32,768トークンです。2024年に登場した最新版のGPT-4 Turboですと、GPT-4のさらに約4倍という大容量を処理できます。

さて、ここで大事なのが、日本語と英語でトークンの数え方が異なることです。日本語では、ひらがな1文字で1〜2トークン、漢字1文字で2~3トークンとカウントされます。そのため、4,096トークンの場合、日本語だと文字数は2,000字程度に相当します。対して英語だと、およそ15,000字程度が上限になります。
英語は基本的に1単語1トークンと覚えておけばいいのですが、日本語は文字によってトークン数が違い、分かりづらいですよね。特に無料版ユーザーは上限が小さいため、入力する文章が何トークンなのか確認したい場面もあるでしょう。そこで役立つのが、トークン数を簡単に計測できるツール「Tokenizer(トークナイザー)」です。
chatGPTを開発したOpenAI社が公式に提供しているツールで、単純な文字数とトークン数両方を即座に算出してくれます。誰でも自由に使えるため、トークン数が気になる際に活用してみましょう。

トークン数によって変動する料金について解説

トークンを理解しておくべきもう一つの理由は、OpenAI社のchatGPT APIを利用した際にかかるAPI利用料金が、トークン数に応じて計算されるからです。API利用料金は、入力したトークン数と出力したトークン数の双方に課金されます。そして、入力と出力で料金単価が異なる点もポイントです。chatGPTのモデルごとに単価設定が変わりますので、自分が登録するプランの料金体系にきちんと目を通してください。それでは、主なモデルの料金体系を以下にまとめます。

●GPT-4
入力=$30/1Mトークン
出力=$60/1Mトークン

●GPT-4 Turbo
入力=$10/1Mトークン
出力=$30/1Mトークン

●GPT-4o
入力=$2.5/1Mトークン
出力=$10./1Mトークン

●GPT-4o-mini
入力=$0.15/1Mトークン
出力=$0.6/1Mトークン

●GPT-3.5 Turbo
入力=$0.5/1Mトークン
出力=$1.5/1Mトークン

料金体系の傾向として、次の2つを頭に入れておくといいでしょう。

①最新のモデルほど料金単価が安い
②入力よりも出力する方がトークンの単価は高い

その他のモデルに関しても、料金体系が細かく分類されています。また、料金単価は今後変更される可能性があります。必ず最新情報をOpenAI社のホームページなどでチェックするようにしましょう。

まとめ

chatGPTのトークンは、単なる文字数とは異なる概念のため、ややこしく感じるかもしれません。とはいえ、どの文字が何トークンか把握する必要はなく、まとまった文章を「Tokenizer(トークナイザー)」にコピペして、トークン数を算出すれば十分です。長文の作成やコーディングなど、入力ないし出力文字数が膨大になる作業を行う時は、トークンを意識しておきましょう。また、ビジネスでchatGPTのAPIを利用する場合、業務コストにも関わってきます。不必要な文章の入力を避けたり、トークン数の消費量が少ない英語を選択するなど、料金を抑える効率的な使用を心掛けていきたいところです。

関連記事

  1. chatgptが嘘をつく理由

    chatGPTが嘘をつく現象はなぜ起こる?仕組みや回避策を調べてみた

  2. chatGPTのアドバンスドボイスモード

    chatGPTで実装されたAdvanced Voice Mode(アドバンスドボイスモード)とは?徹…

  3. chatGPTでパワーポイント作成

    chatGPTにスライド作成を依頼することは可能?コツなどを解説

  4. chatGPTと法人営業

    chatGPTを法人営業でも活用!活用事例の具体例やポイントを解説

  5. chatGPTの翻訳機能

    chatGPTの翻訳精度はどれくらい?グーグル翻訳との比較についても解説

  6. chatGPTと法律業務

    chatGPTは法律にも精通している?法律業務で使えるかについて考察してみた

  7. chatGPTのo1-preview

    chatGPTに実装されたo1-preview機能とは?特徴や使い方を解説

  8. chatGPTの命令

    chatGPTに役割を与えると作業効率アップ!使える役割一覧

  9. chatGPTと音声入力

    chatGPTで音声入力する方法を解説

PAGE TOP