データアナリティクスやCRM(顧客関係管理)の分野では、顧客からのアンケート回答、検索キーワード、レビュー、問い合わせなど、あらゆるデータを適切に扱って、ビジネスに活用することが求められます。何千件もの文章に目を通して整理するのは大変な労力が必要です。そのため、昨今はAIツールを利用して効率的にデータ管理をする企業が増えていました。
自然言語処理の最新技術であるChatGPTを活用すると、コストを抑えつつ効率的にテキストマイニングが可能になります。この記事では、テキストマイニングの基本的な説明から、テキスト分類のやり方やプロンプトの作成方法まで、詳細に解説していきます。ChatGPTによって、企業規模を問わずデータ分析を行えることを、ぜひ実感してください。
そもそもテキストマイニングとは?
テキストマイニングとは、大量の文章(テキスト)データから価値ある情報や知見を抽出する技術です。膨大な非構造化データを分析することにより、テキストの中に隠れているトレンドやパターンを探し出します。従来は、文章を単語に分解して、特定の単語の出現頻度などを統計処理する手法が一般的でした。よって、必ずしも精度が高いとは言えず、抽出したい情報が満足に得られないこともありました。
ChatGPTは、出演頻度を測定するだけでなく、その言葉がどんな文脈で使用されているのかを理解します。文章がどのような意図をもって書かれているのか明らかにするので、より深い考察ができるのです。一般的なテキストマイニングの手順を説明すると、工程が多いことがお分かりでしょう。
①データ収集
②前処理(クレンジング、トークン化)
③特徴量の抽出(統計的分析、可視化)
④モデリング(クラスタリング・テキスト分類)
⑤結果の評価
一方で、ChatGPTを用いるとプロセスを大幅に削減できます。長文を要約したり、アンケート内容を分析するなど多方面に役立つので、活用しない手はありません。
chatGPTにテキスト分類させることは可能?
ChatGPTでテキストマイニングを実施するために、主に2つの方法を紹介しましょう。
●Advanced Data Analysis(旧称:Code Interpreter)
GPT-4に統合された機能であるAdvanced Data Analysisは、日本語で指示を出すだけで、データの読み込みや分析、グラフの作成など、データ処理に関するあらゆる作業ができるツールです。ExcelなどのファイルをChatGPTにアップロードして、テキスト分類を指示します。分類に関するプロンプトを入力すると、すぐに分析が始まり、回答を表示してくれます。
ChatGPTは対話型AIですから、一度回答を受け取ったあと、さらに細かく分類するよう再度指示を送ることも可能です。Excelファイルを出力してもらい、次にツリー構造の画像や各種グラフを生成するようにすれば、データへの理解も深まるはずです。
注意点として、インターネット上の情報を直接取得することはできません。テキストマイニングしてもらいたいデータを手元に用意しておく必要があります。また、Advanced Data Analysisは、ブラウザ版ChatGPTのみ利用可能です。スマートフォン端末経由だと使用不可となります。
●GPT for Sheets and Docs
Google Chromeの拡張機能「GPT for Sheets and Docs」を使用する場合でも、同様にテキストマイニングが可能です。GoogleアカウントとChatGPTに登録するアカウントを用意して、OpenAIのAPIキーを取得します。OpenAI以外、たとえばAzure OpenAI Serviceなどでも大丈夫です。
次に、Chromeの拡張機能「GPT for Sheets and Docs」をインストールします。スプレッドシートを開き、“拡張機能”に「GPT for Sheets and Docs」が表示されていれば、インストール完了です。
続いて、APIキーをGPT for Sheets and Docsに適用します。拡張機能をクリックして、GPT for Sheets and DocsからSet API keyを開くと、APIキーを入力する欄がありますので、取得済みのキーを入力してください。設定が完了したら、実際にテキストマイニングができるようになります。
chatGPTにアンケート分析させるためのプロンプトのコツ
膨大な量のアンケート回答を、Advanced Data Analysisを使用して分析する際のプロンプトを例を挙げながら説明します。前提として、アップロードするファイルに記述された具体的な回答を“レビュー内容”、評価基準を[ポジティブ/ニュートラル/ネガティブ]の3項目に分類する設定です。ファイルのD列とE列は空白の状態とします。
#命令
xlsxファイルを読み込んでテキストマイニングを行ってください。
次の #手順 に沿って処理をしてください。
#手順
1.”レビュー内容”の感情を分析して、D列にポジティブ/ニュートラル/ネガティブのいずれかを入力してください。
2.”レビュー内容”のテキストを分析して、#カテゴリ の中から適切なものを一つ選んでE列に入力してください。
3.1~2までの処理を行った結果をxlsx形式で出力してください。
#カテゴリ
価格, デザイン, 配送, サイズ, サポート, 情報, その他」
上記は、アパレルブランドのオンラインショップを仮定して、カテゴリの分類を作成しました。たとえば飲食店に関するアンケート分析なら、カテゴリの部分を
味, 見た目, 雰囲気, 立地, 店員, 値段, その他
といった具体に、テーマに合わせて自由に変更できます。
まとめ
テキストマイニングは、顧客との接点が多い業種では、売上や利益を伸ばすために大切な作業といえます。しかし、従来の方法だと手間とコストがかかり、中小企業だと十分に実施していないケースも多かったです。ChatGPTの登場によって、データ分析がより身近なものとなりました。今や企業規模の大小関係なく、テキストデータさえ持っていれば、AIツールのおかげで簡単にビジネスに役立つ情報を得ることが可能です。ビッグデータ時代の今、テキストマイニング技術は誰もが習得すべきスキルかもしれません。