TOPIC

chatGPT-4oのここがすごい!特徴やできることを中心に解説

chatgpt-4oの詳細

OpenAI社は、2024年5月13日に最新モデルchatGPT-4o(ジーピーティーフォーオムニ)を発表しました。これは従来のGPT-4 Turboの後継モデルです。4oのoは「全て(omni-)」を意味しています。GPT-4oでは、新たな機能が追加されるとともに、性能面でも大幅な強化がなされました。この記事では、GPT-4oの特徴やできることを中心に触れていきます。

chatgpt-4oの特徴を簡単に解説

旧モデルGPT-4 Turboと比べ、処理速度は2倍になり、費用面では従来の半額での利用が可能になりました。また、音声、画像、テキストのデータを同時に処理し理解する事が可能になりました。この機能はマルチモーダルと呼ばれ、音声や画像など異なる二つ以上の種類のデータから情報を集めて処理する人工知能のシステムです。さらに、有料版だけでなく無料版の利用も可能です。

音声処理機能の向上

またchatgpt-4oでは、従来モデルより返答速度がさらに高速化しました。従来モデルでは、まず音声をテキストに変換し、その後またテキストを音声に変換して応答していました。この過程を「Whisper, GPT- 4 Turbo,TTS」という3つのモデルで処理していましたが、今回GPT-4o自体で、この処理を一元的に行うようになりました。そのため、応答速度が格段に上がっており、音声による質問の回答がは平均で約0.32秒となっています。人間の返答時間は平均0.21秒と言われていますので、より自然に会話しているような感覚に近づいたわけです。GPT-4oが返答している間に割って入ることや、途中で話題を変えることも可能になり、自由な会話ができるようにもなっています。

多言語への対応に関していえば、現在日本語を含む50の言語に対応しています。デモ動画では二人の人が英語とイタリア語などの異なる言語をGPT-4oが同時通訳する場面が映されています。従来版では、英語以外の返答の精度は高くありませんでしたが、今回英語以外の言語での返答の精度も向上しています。
日本語では、大幅な向上が見られています。さらに、笑うこと、歌うこと、感情の表現と言える機能までもが備わっています。デモ動画では、会話の間合いや笑い声などが人間の応対とも感じられるという感想が述べられています。

画像処理機能の向上

GPT-4oでは、画像生成機能が格段に向上しました。写真や絵などのデータを認識し、処理して、画像キャプションの生成、画像検索、画像生成などを実行できます。従来の画像生成では、画像に一貫性を持たせることに難しさがあり、画像生成が成功しないこともありました。今回、この画像生成の一貫性が大幅に向上しています。
例えば、「ロボットがタイプライターを使って日記をつける様子」などの、様々なビジュアルコンテンツの生成が可能です。3D画像や、それが回転する動画の生成もできます。デモ動画では、数学の問題をiPadの画面でGPT-4oに共有しながら、AIが家庭教師として子供に教えている様子が映されています。スクリーンショットのみならず、スマートフォンのカメラにアクセスさせてリアルタイムな使用も可能です。

音声認識処理能力の向上でできること

処理速度が2倍になり、マルチモーダル対応が可能となって、さらに音声認識処理能力が多言語の分野で大幅に向上したことにより、GPT-4oでできることがいろいろ出てきました。

同時通訳者

音声認識と合成を一元的に行い、処理速度が格段に早くなって、人間の応答に近づいたことで、GPT-4oを多言語の同時通訳者として使うことも現実的選択肢の一つになってきました。音声認識でも、Whisper-v3の性能を上回っており、音声翻訳では、最先端の性能が報告されています。海外旅行での強力な助けになるのみならず、日本企業にとって海外における売り上げの拡大にもつながるでしょう。GPT-4oの音声処理機能により同時通訳がほぼ可能となったことで、これまで幾つもあった言語の障壁を乗り越えることが可能になります。日本企業は母語である日本語を通して、海外の企業、マーケットにアプローチすることがより容易にできるようになるでしょう。

文字起こし

会議や会話など、GPT-4oを使えば音声を音声認識、入力機能により自動で文字起こしすることが可能になります。これは大幅な記録業務の削減にもつながるでしょう。さらに、多言語の性能が優れているために、心強い記録係になります。さらに、その記録の要点をまとめてレポートを作成することまでこなしてくれます。

電話・チャットボット対応

GPT-4oの音声入力機能を使えば、AIによる電話やチャット対応により、業務効率化が実現できます。音声入力される顧客の問い合わせに対し、GPT-4oが適切な回答を生成します。また、チャット対応に関しても、GPT-4oでのチャットボット対応が出来ます。電話、チャットオペレーターの業務負担が軽減されるでしょう。翻訳機能を組み合わせることで、多言語での問い合わせ対応が可能です。

データ画像処理能力の向上でできること

データ処理、グラフや表作成

GPT-4oでは、Google DriveとMicrosoft OneDriveとの連携ができるようになりました。こちらに保存されているファイルをGPT-4oにアップロードして分析することが可能になりました。ExcelやPDFの複数の詳細なデータ内容をそのまま解析できますので、データの一貫性を保たせながら処理できます。また、クラウドストレージに保存されたデータから、グラフや表を作成したり、編集したりも出来ます。都度自分の手でインプットする手間が、大幅に省けます。

視覚解説機能

マルチモーダル対応のGPT-4oは、ビデオ入力と音声処理が同時に可能です。そのため例えば、iPhoneのカメラで周囲を動画撮影し、その様子を音声解説させることが可能です。デモ動画では、池で泳ぐカモの様子を、GPT-4oが音声解説している様子が映されています。またタクシーが来ていることを視覚認識し、手を上げるタイミングを音声で指示している様子もあります。

まとめ

今回のGPT-4oの発表はこれまでの流れとは、一線を画するものとなりました。一元化されたモデルでの音声認識処理機能の導入、多言語処理の分野での格段の向上、アプリケーションとの連携、エンドユーザーへの利便性の改善など、マルチモーダルなAIの中で、現在最も高性能であり実用レベルの完成度となっています。画像処理機能、音声認識処理機能、返答速度の向上は、人間に近づいた応対を感じさせます。
本記事では詳しく取り上げませんでしたが、他にもエンターテイメントや契約文書のリスクチェック、メールマガジンの作成など特徴を生かしてできることは、数多くあります。これからも、ChatGPTをはじめAIの機能は、更に改善され、向上していくことでしょう。このGPT-4o、是非賢く使っていきたいものです。

関連記事

  1. ExcelとchatGPT

    chatGPTでマクロ生成は可能?具体的なプロンプトなども併せて紹介

  2. chatgptで使えるプロンプト

    chatGPTはプロンプトが全て!生成のコツやプロンプトの一部を紹介

  3. chatGPTとセキュリティリスク

    chatGPTで情報漏洩は起こる?情報漏洩のリスクや対策方法について解説

  4. chatgptとマーケティング

    chatGPTをマーケティング戦略に活用する方法を、具体例を交えて解説

  5. chatgpt-4oの仕組みや料金

    chatgpt-4oは無料で使える?無料での使い方や無料版の制限について解説

  6. chatgptのファインチューニング

    chatGPTのファインチューニングとは?概要や仕組み、メリットデメリットについて解説

  7. aiのソースコード

    chatGPTにソースコードを解析させることは可能?

  8. chatGPTのcanvas機能

    chatGPTに新導入されたcanvasとは?

  9. chatGPTでパワーポイント作成

    chatGPTにスライド作成を依頼することは可能?コツなどを解説

PAGE TOP