chatGPTを業務で利用しているのであれば、より効率的な活用方法を模索しているかもしれません。その一つの選択肢として、ファインチューニングを利用するという手があります。より生成AIの精度を高めるために有効な手段として、多くの企業ですでに導入されているものです。
そこで、本記事ではそもそもchatGPTのファインチューニングとはなにか、どんな事例があるのか、料金はどうなっているのかという点を中心に解説していきます。
chatGPTのファインチューニングとは
chatGPTのファインチューニングとは、chatGPTモデルに対し、オリジナルのデータをさらに追加学習させることを意味します。AIは学習をさせることで、より正確かつ自然な命令実行ができるという特徴を持っています。逆に言うと、情報量が少なかったり古かったりすると、正確な回答が得られないことがあるのです。
2024年現在、GPT-4は2023年9月までの学習データを持っており、GPT-3.5の場合は2021年9月までのデータとなっています。つまり、これよりも新しいデータに基づく回答は得られないことになります。そこで、ファインチューニングにより、もともと持っているこれらのchatGPTのデータにプラスする形で、データを学習させることができるのです。といっても、Open AI側でデータを取得するのではなく、自分たちでデータを用意して、それを読み込ませる形で学習させることになります。
ファインチューニングはそのままではできず、API連携の手法を利用して実行します。そのため、まずOpen AIのAPIキーを取ってから、あらかじめ用意しておいた追加学習のためのデータをアップロードします。その後、学習をさせてモデルのチューニングを実施します。最後に、chatGPTがきちんとファインチューニングされているか、最新データを用いた質問などをして、結果検証を行います。
chatGPTでのファインチューニングでは、最低でも10セット以上の学習データが必要とされていて、一般的には50〜100以上のサンプルを用意して学習をさせます。それだけに、しっかりと事前のデータ準備を進めないといけません。データフォーマットについては、Open AIが提供しているPythonコードを見ることで確認できます。フォーマット入力を間違えると正しく学習できませんので、Pythonについてのプログラミング技術が求められる作業となります。それだけに、誰でも簡単にファインチューニングができるわけではなく、エンジニアが行う分野と言えるでしょう。
chatGPTのファインチューニングの事例
chatGPTのファインチューニングは、最新の情報を学習させることで、より精度の高い回答を得ることを一つの目的としています。そのため、法律や金融、医療などの分野で実行される事例が見られます。たとえば、病気の診断や治療法の提案のためにAIを活用する動きが広まっていますが、その際には最新の医療データに基づく学習が必須です。そこで、ファインチューニングによって、ここ数年挙がってきている症例データ、有効と思われる治療法や薬物についてのデータをアップさせます。それにより、より幅の広い医療的解決策を得られることになります。
カスタマーサポートのためにchatGPTを用いている企業も、ファインチューニングの恩恵を受けられます。chatGPTはあくまでも一般的な情報を収集、学習していますので、企業個々のデータや習慣、ポリシーなどは把握していません。そこで、自社独自の製品情報や使用している用語、今までの問い合わせ履歴、製品マニュアルなどを学習させることができます。それによって、専門的な質問に対しても、的確な回答をチャットボットなどで返すことができるようになります。
さらに、社内用サービスとして活用するためにファインチューニングを施す事例も見られます。たとえば、近年更新したガイドラインやポリシー、研修用マニュアルなどを学習させます。それによって、社員がなんらかの疑問を持った時にchatGPTに問い合わせることで、正確で有用な解決策を発見できるようになります。社員は他の人を煩わせることなく、自分で問題解決の道筋を見つけられますし、属人化しない冷静なコメントを得られるというメリットが生まれます。
chatGPTの一般的な使い方である、文章の作成や要約、翻訳といった分野でも、ファインチューニングをするのは有効です。もちろん、スタンダードなchatGPTでも、かなり自然な文章を作ってくれます。しかし、自分たちが好む文体や表現、よく使用する専門用語などをデータとしてアップして学習させることで、より自社らしい文章にできるのです。
また、一般的な内容の文章ではなく、自社が提供するデータに基づいた詳細な文章を作れるようにもなります。たとえば、自社の製品情報やプレスリリース、報告書などを学習させます。こうすると、業績や自社独自の製品ラインナップなどを挿入した形での、自然で具体的なビジネス文書を自動的に作れるようになるわけです。
chatGPTのファインチューニングの料金について
chatGPTのファインチューニングに関係する料金については、いくつかの要素が関係します。まず、Open AI側では、APIコードを取得するための有料プランを申し込む必要があります。また、通常は社内で多数回利用することを考えて、使用回数制限の違いに伴うプランの差も考えるべきです。ファインチューニングの料金は、トークン単位で上がっていく仕組みとなっています。トレーニングの回数や量によって変わってきますので、事前にどのくらいの学習をさせるのかを予測して、見積もりを出すと良いでしょう。
そして、前述の通り、chatGPTのファインチューニングを行うのには、一定のITスキルが求められることがデメリットとなり得ます。Pythonの技術者が社内にいるのであれば内製できますが、そうでない場合は外注する必要が出てきます。追加学習用のデータを作るのにもコツが必要で、初めてだと上手にデータを作れずに、効果があまり出ないこともあります。データ準備なども任せると、その分外注料金が高くなることも考えられます。
もちろん、ファインチューニングの有無にかかわらず、有償版chatGPTを利用するに当たっては、入力と出力のどちらにもトークンを消費します。自社における利用状況を予測して、どのくらいのトークンを使うことになるかを考えないと、コストが見通せません。ファインチューニングをして使い勝手が向上すれば、chatGPTの利用も増える可能性が高くなり、トークン消費が激しくなることを予測しておくことも、一定のデメリットとして覚えておくと良いです。
まとめ
chatGPTは、最新のオリジナルデータを追加学習させるファインチューニングをすることによって、より正確で使い勝手の良いサービスとなります。ファインチューニングをするに当たっては、一定のITスキルが求められます。また、ある程度のコストがかかりますので、事前に見積もりを取り、大きな負担とならないかを検討した上で導入を決めましょう。