TOPIC

chatGPTのトークンって何?トークンの仕組みをわかりやすく解説

chatGPTのトークン

大規模言語モデル(LLM)タイプの生成AI、chatGPTを使用するにあたり、“トークン”という概念をしっかり理解しておくことが重要です。本記事では、「chatGPTのトークンとはそもそも何なのか?」「どのような場面で登場するのか?」「なぜ重要な概念なのか?」を分かりやすく解説します。日常生活では馴染みがない概念ですが、chatGPT内の専門用語として覚えておきたいところです。トークンを理解しておけば、chatGPTをより便利に、より快適に活用することができますから、是非この記事で学んでいきましょう。

そもそもトークンとは?

chatGPTにおけるトークンとは、テキストの最小単位を表す言葉です。通常、テキストの容量を示す単位として、“文字数”が用いられますよね。それでは、トークンと文字数は何が異なるのでしょうか。
要点からお伝えすると、「1文字=1トークンではない」ということです。トークンを噛み砕いて説明するなら、文字の並びを意味のあるまとまりに分けたものです。ひらがなや漢字などの文字にくわえて、句読点や記号もトークンにカウントされます。

それでは、具体例を挙げてみましょう。「私は東京都出身です。」という文章をトークンで区切ってみると、以下のようになります。「私/は/東/京/都/出/身/で/す/。」一方、同じ意味の文章を英語で記述した場合、トークンは次のように分けられます。
「I/was/born/in/Tokyo/.」
英語ではおおよそ、意味をなす1単語ごとに1トークンと数えられます。日本語ですと、単語の区切りがAIにとっては明確でないため、ひらがな1文字も1トークン扱いになるのです。
“born”という単語を「bo」と「rn」に分けても意味をなしません。しかし、“私は”を「私」という名詞+「は」という助詞に分類することは可能です。このように、日本語と英語では言語の構造が異なるため、トークンを計算する仕組みも違ってきます。

chatGPTのトークンのカウント上限はどれくらい?

トークンが重要になる理由の一つは、「chatGPTの文字数制限はトークン数で制限される」からです。chatGPTでは、一度に処理できるテキストの容量に制限があります。長い文章の要約や翻訳を指示すると、エラーが出たり文章が途切れてしまいます。この上限数は、文字数ではなくトークン数で管理されているのです。chatGPTのトークン数の上限は、モデルによって変わります。

●GPT-3.5:4,096トークン
●GPT-4:32,768トークン
●GPT-4 Turbo:128,000トークン

無料版ユーザーが利用できるGPT-3.5では上限が4,096なのに対し、有料版のGPT-4は8倍の32,768トークンです。2024年に登場した最新版のGPT-4 Turboですと、GPT-4のさらに約4倍という大容量を処理できます。

さて、ここで大事なのが、日本語と英語でトークンの数え方が異なることです。日本語では、ひらがな1文字で1〜2トークン、漢字1文字で2~3トークンとカウントされます。そのため、4,096トークンの場合、日本語だと文字数は2,000字程度に相当します。対して英語だと、およそ15,000字程度が上限になります。
英語は基本的に1単語1トークンと覚えておけばいいのですが、日本語は文字によってトークン数が違い、分かりづらいですよね。特に無料版ユーザーは上限が小さいため、入力する文章が何トークンなのか確認したい場面もあるでしょう。そこで役立つのが、トークン数を簡単に計測できるツール「Tokenizer(トークナイザー)」です。
chatGPTを開発したOpenAI社が公式に提供しているツールで、単純な文字数とトークン数両方を即座に算出してくれます。誰でも自由に使えるため、トークン数が気になる際に活用してみましょう。

トークン数によって変動する料金について解説

トークンを理解しておくべきもう一つの理由は、OpenAI社のchatGPT APIを利用した際にかかるAPI利用料金が、トークン数に応じて計算されるからです。API利用料金は、入力したトークン数と出力したトークン数の双方に課金されます。そして、入力と出力で料金単価が異なる点もポイントです。chatGPTのモデルごとに単価設定が変わりますので、自分が登録するプランの料金体系にきちんと目を通してください。それでは、主なモデルの料金体系を以下にまとめます。

●GPT-4
入力=$30/1Mトークン
出力=$60/1Mトークン

●GPT-4 Turbo
入力=$10/1Mトークン
出力=$30/1Mトークン

●GPT-4o
入力=$2.5/1Mトークン
出力=$10./1Mトークン

●GPT-4o-mini
入力=$0.15/1Mトークン
出力=$0.6/1Mトークン

●GPT-3.5 Turbo
入力=$0.5/1Mトークン
出力=$1.5/1Mトークン

料金体系の傾向として、次の2つを頭に入れておくといいでしょう。

①最新のモデルほど料金単価が安い
②入力よりも出力する方がトークンの単価は高い

その他のモデルに関しても、料金体系が細かく分類されています。また、料金単価は今後変更される可能性があります。必ず最新情報をOpenAI社のホームページなどでチェックするようにしましょう。

まとめ

chatGPTのトークンは、単なる文字数とは異なる概念のため、ややこしく感じるかもしれません。とはいえ、どの文字が何トークンか把握する必要はなく、まとまった文章を「Tokenizer(トークナイザー)」にコピペして、トークン数を算出すれば十分です。長文の作成やコーディングなど、入力ないし出力文字数が膨大になる作業を行う時は、トークンを意識しておきましょう。また、ビジネスでchatGPTのAPIを利用する場合、業務コストにも関わってきます。不必要な文章の入力を避けたり、トークン数の消費量が少ない英語を選択するなど、料金を抑える効率的な使用を心掛けていきたいところです。

関連記事

  1. chatgptが嘘をつく理由

    chatGPTが嘘をつく現象はなぜ起こる?仕組みや回避策を調べてみた

  2. chatgptを育成する

    chatGPTを育てると精度は上がる?育てる具体的な方法を解説

  3. ExcelとchatGPT

    chatGPTでマクロ生成は可能?具体的なプロンプトなども併せて紹介

  4. chatGPTのサポート業務

    chatGPTをサポート業務に活用するにはどうすれば良い?関連サービスも併せて紹介

  5. chatgptのテキストマイニング

    chatGPTにテキストマイニングをさせるコツ

  6. chatgptのクロームのアドオン

    chatgptに関するchromeの拡張機能でおすすめの機能をピックアップ

  7. chatGPT searchとは

    大注目のchatGPT searchがリリース!仕様や特徴を徹底解説

  8. chatgptのイラスト生成

    chatGPTでイラスト生成のやり方を徹底解説

  9. chatGPTの議事録

    chatGPTは議事録作成もやってくれる?具体的な使い方や便利なツールを紹介

PAGE TOP