TOPIC

chatGPTのトークンって何?トークンの仕組みをわかりやすく解説

chatGPTのトークン

大規模言語モデル(LLM)タイプの生成AI、chatGPTを使用するにあたり、“トークン”という概念をしっかり理解しておくことが重要です。本記事では、「chatGPTのトークンとはそもそも何なのか?」「どのような場面で登場するのか?」「なぜ重要な概念なのか?」を分かりやすく解説します。日常生活では馴染みがない概念ですが、chatGPT内の専門用語として覚えておきたいところです。トークンを理解しておけば、chatGPTをより便利に、より快適に活用することができますから、是非この記事で学んでいきましょう。

そもそもトークンとは?

chatGPTにおけるトークンとは、テキストの最小単位を表す言葉です。通常、テキストの容量を示す単位として、“文字数”が用いられますよね。それでは、トークンと文字数は何が異なるのでしょうか。
要点からお伝えすると、「1文字=1トークンではない」ということです。トークンを噛み砕いて説明するなら、文字の並びを意味のあるまとまりに分けたものです。ひらがなや漢字などの文字にくわえて、句読点や記号もトークンにカウントされます。

それでは、具体例を挙げてみましょう。「私は東京都出身です。」という文章をトークンで区切ってみると、以下のようになります。「私/は/東/京/都/出/身/で/す/。」一方、同じ意味の文章を英語で記述した場合、トークンは次のように分けられます。
「I/was/born/in/Tokyo/.」
英語ではおおよそ、意味をなす1単語ごとに1トークンと数えられます。日本語ですと、単語の区切りがAIにとっては明確でないため、ひらがな1文字も1トークン扱いになるのです。
“born”という単語を「bo」と「rn」に分けても意味をなしません。しかし、“私は”を「私」という名詞+「は」という助詞に分類することは可能です。このように、日本語と英語では言語の構造が異なるため、トークンを計算する仕組みも違ってきます。

chatGPTのトークンのカウント上限はどれくらい?

トークンが重要になる理由の一つは、「chatGPTの文字数制限はトークン数で制限される」からです。chatGPTでは、一度に処理できるテキストの容量に制限があります。長い文章の要約や翻訳を指示すると、エラーが出たり文章が途切れてしまいます。この上限数は、文字数ではなくトークン数で管理されているのです。chatGPTのトークン数の上限は、モデルによって変わります。

●GPT-3.5:4,096トークン
●GPT-4:32,768トークン
●GPT-4 Turbo:128,000トークン

無料版ユーザーが利用できるGPT-3.5では上限が4,096なのに対し、有料版のGPT-4は8倍の32,768トークンです。2024年に登場した最新版のGPT-4 Turboですと、GPT-4のさらに約4倍という大容量を処理できます。

さて、ここで大事なのが、日本語と英語でトークンの数え方が異なることです。日本語では、ひらがな1文字で1〜2トークン、漢字1文字で2~3トークンとカウントされます。そのため、4,096トークンの場合、日本語だと文字数は2,000字程度に相当します。対して英語だと、およそ15,000字程度が上限になります。
英語は基本的に1単語1トークンと覚えておけばいいのですが、日本語は文字によってトークン数が違い、分かりづらいですよね。特に無料版ユーザーは上限が小さいため、入力する文章が何トークンなのか確認したい場面もあるでしょう。そこで役立つのが、トークン数を簡単に計測できるツール「Tokenizer(トークナイザー)」です。
chatGPTを開発したOpenAI社が公式に提供しているツールで、単純な文字数とトークン数両方を即座に算出してくれます。誰でも自由に使えるため、トークン数が気になる際に活用してみましょう。

トークン数によって変動する料金について解説

トークンを理解しておくべきもう一つの理由は、OpenAI社のchatGPT APIを利用した際にかかるAPI利用料金が、トークン数に応じて計算されるからです。API利用料金は、入力したトークン数と出力したトークン数の双方に課金されます。そして、入力と出力で料金単価が異なる点もポイントです。chatGPTのモデルごとに単価設定が変わりますので、自分が登録するプランの料金体系にきちんと目を通してください。それでは、主なモデルの料金体系を以下にまとめます。

●GPT-4
入力=$30/1Mトークン
出力=$60/1Mトークン

●GPT-4 Turbo
入力=$10/1Mトークン
出力=$30/1Mトークン

●GPT-4o
入力=$2.5/1Mトークン
出力=$10./1Mトークン

●GPT-4o-mini
入力=$0.15/1Mトークン
出力=$0.6/1Mトークン

●GPT-3.5 Turbo
入力=$0.5/1Mトークン
出力=$1.5/1Mトークン

料金体系の傾向として、次の2つを頭に入れておくといいでしょう。

①最新のモデルほど料金単価が安い
②入力よりも出力する方がトークンの単価は高い

その他のモデルに関しても、料金体系が細かく分類されています。また、料金単価は今後変更される可能性があります。必ず最新情報をOpenAI社のホームページなどでチェックするようにしましょう。

まとめ

chatGPTのトークンは、単なる文字数とは異なる概念のため、ややこしく感じるかもしれません。とはいえ、どの文字が何トークンか把握する必要はなく、まとまった文章を「Tokenizer(トークナイザー)」にコピペして、トークン数を算出すれば十分です。長文の作成やコーディングなど、入力ないし出力文字数が膨大になる作業を行う時は、トークンを意識しておきましょう。また、ビジネスでchatGPTのAPIを利用する場合、業務コストにも関わってきます。不必要な文章の入力を避けたり、トークン数の消費量が少ない英語を選択するなど、料金を抑える効率的な使用を心掛けていきたいところです。

関連記事

  1. chatgptのファイルアップロード

    chatgpt 4oはファイルアップロードが可能に!対応しているファイルや具体的な使い方を解説

  2. chatGPTとExcel連携

    chatGPTとエクセルを連携させることは可能?活用方法を解説

  3. chatGPTと法人営業

    chatGPTを法人営業でも活用!活用事例の具体例やポイントを解説

  4. chatGPTとセキュリティリスク

    chatGPTで情報漏洩は起こる?情報漏洩のリスクや対策方法について解説

  5. chatGPTとLINEの連携

    chatGPTとLINEも連携可能に?AIチャットくんについて解説

  6. chatgptのプロンプト

    chatgptのプロンプト(質問文)を作成するときのコツ

  7. chatGPTのcanvas機能

    chatGPTに新導入されたcanvasとは?

  8. chatGPTでパワーポイント作成

    chatGPTにスライド作成を依頼することは可能?コツなどを解説

  9. chatGPTは嘘をつく

    chatGPTが嘘をつく?その現象の背景と対策について解説

PAGE TOP