Googleは2024年12月、最新の画像生成モデル「Imagen3」と動画生成モデル「GoogleVeo」をリリースしました。“生成AI”と聞くと、OpenAI社が開発したChatGPTを思い浮かべる方が多いかと思います。検索エンジン機能で覇権を握ったGoogleも、昨今はAIの開発に多額の投資を行っています。IT企業として世界に名を馳せるGoogleが発表したAIは、どのような機能を持っているのでしょうか。
今後多くの業界に影響をもたらすと言われているGoogleのAIツールについて、詳しく解説します。
Veoはどんな生成ai?概要や仕組みを解説
動画生成AIモデル「Veo」は、テキストや画像のプロンプトから高品質な動画を生成できるツールです。Google DeepMindという、イギリスにある人工知能の開発に携わる企業がリリースしたものです。同社は2014年にGoogleが買収し、現在は子会社になっています。
Veoは、Google CloudのVertex AI上で提供開始しており、主なターゲット顧客は企業や開発者です。企業のクリエイティブ活動を支援すべく、自然で一貫性のある映像を作成できるようになっています。それでは、Veoの特徴や機能について順番に説明しましょう。
①テキストから動画、画像から動画へ
ユーザーが入力したテキストなどのプロンプトを基に、60秒を超えるフルHD(1080p)動画を生成します。自然言語と視覚的セマンティクスの高度な理解によって、高品質かつ高解像度動画を作り出すことが可能です。人物、動画、オブジェクトが映像全体を通じて自然に動き、一貫性のある映像を作成できることが魅力です。
②マスク編集機能
Veoは、既存の動画を簡単に編集する機能も搭載しています。具体的には、特定の要素を追加したり、動画の特定箇所のみを再生成するなど、部分的な編集ができます。背景のみの変更や一部オブジェクトの調整といった細部まで自由自在に編集を行えます。
③SynthID技術
生成された動画には、GoogleのSynthID技術を活用した電子透かしが埋め込まれます。AI生成コンテンツであると明示でき、なおかつ人間の視覚では認識できないものです。コンテンツの信頼性を確保し、不正利用の防止に役立ちます。
Imagen3はどんな生成ai?概要や仕組みを解説
画像生成AIモデル「Imagen3」は、テキストから画像を生成する最高品質の画像生成AIです。従来モデルのImagenと比較すると、視覚的なアーティファクト、平たくいえば“AIっぽさ”が大幅に減少しています。プロンプトの理解力が向上して、複雑な指示も忠実に表現できます。Imagen3は、Vertex AIおよびGeminiやImageFXから、誰でもアクセス可能です。Geminiを経由して、チャット形式でテキスト指示を入力するだけで、色彩鮮やかで明るく写実的な画像を生成します。
動画生成AIのVeoは開発者向け有料サービスのVertex AIでリリースされ、2024年12月時点で一般公開は未定となっています。対してImagen3は一般ユーザーもすぐ利用できる点が大きな違いです。Imagen3の特徴や機能について、以下にまとめています。
①多様な編集機能
画像をカスタマイズするための使いやすい編集機能を搭載しています。サイズ要件を満たすための画像アップスケールも可能です。また、新しい画像を生成する時に、自社の製品やアイテムを組み込めます。一例として、アパレルブランドが広告ビジュアルを用意するにあたり、モデルに指定の商品を着用させた画像を作成できます。広告やマーケティングプロセスでの活用が期待されています。
②SynthID技術の導入
Veo同様、GoogleのSynthID技術を採用することで、生成された画像に電子透かしを埋め込みます。AIが生成した画像だと認識できるようになり、誤情報の拡散防止やコンテンツの信頼性を向上させるはずです。まるで写真かと思うほどのリアルな光景から、クラシックな絵画風、アニメ風イラストまで、多様なアートスタイルに対応しているため、幅広いユーザー層のクリエイティブ活動に貢献するでしょう。
ゲームの制作もAIで?Genie2についても紹介
Google DeepMindは、テキストや画像から3D仮想空間を生成する新タイプのAI「Genie2」を2024年12月に公開しました。“基盤世界モデル”と称され、仮想空間をマウスやキーボードを使って操作します。単一の画像をプロンプトとしてアップロードするだけで、ゲームのような世界を構築することができるわけです。
さらに、1人称視点、アイソメトリックビュー(斜め上からの視点)、3人称視点など、多角的な視点で仮想世界を生成可能です。高い再現能力を持ち、一度視界から外れたオブジェクトや場所も、再び視界に入ると正確に再現されています。
Genie2は、大規模な動画データセットを用いてトレーニングを施した“自己回帰型拡散モデル”とよばれる仕組みから作られたものです。データセットのソースは非公表ですが、オブジェクトの相互作用やキャラクターアニメーションの予測能力が非常に優れています。現時点で、生成できるのは最大1分間です。将来的には、ゲーム開発者やアーティストが新サービスをシミュレーションする目的などで活用が見込まれます。
まだまだ画質の粗さや生成時間の短さなど課題は残ります。Google DeepMindは「研究は初期段階であり、生成機能の改善に注力する」とコメントし、さらなる進化を見せることでしょう。
まとめ
Googleが開発した生成AIは、高品質でリアルなコンテンツを作り出し、ビジネスを多方面からサポートします。Imagen3のサンプル画像に目を通すと、本物の写真や絵画と勘違いしてもおかしくないほど精度が高いです。編集機能やカスタマイズも容易に行えるため、広告・プロモーション・マーケティングなど、これまで外部に委託していた業務を自社内で完結できるようになるかもしれません。
VeoやGenie2を利用すれば1分程度の動画をテキストや画像から瞬時に生成できます。同社は単なる動画作成の先、物理世界のシミュレーションを見据えています。AIを使ってビジネスを精査する、そんな未来を想像しているのではないでしょうか。