BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Stability AIが3Dモデル生成AI "Stable Video 3D"をリリース

Stability AIが3Dモデル生成AI "Stable Video 3D"をリリース

原文リンク(2024-04-23)

Stability AIはこのほど、1枚の2D画像から3Dメッシュオブジェクトモデルを生成できるAIモデル、"Stable Video 3D"(SV3D)をリリースした。SV3DはStable Video Diffusionモデルに基づいており、3Dオブジェクト生成ベンチマークで最先端の結果を出している。

SV3Dは、NVS(Novel View Synthesis)の問題に対処している。NVSは、オブジェクトの1つまたは複数の2D画像があれば、そのオブジェクトの未見部分を生成可能で、例えば、オブジェクトの前面の画像があれば、その背面のビューを生成できる。Stability AIは、既存の安定したビデオ拡散モデルを活用した。このモデルにはカメラ制御機能が含まれており、カメラが対象物の周囲を周回する軌道ビデオを生成できる。このモデルは、Objaverseデータセットの3Dオブジェクトからレンダリングされたデータセットを使ってファインチューニングされた。GSOと OmniObject3Dベンチマークで評価したところ、SV3Dはベースラインモデルを上回り、最先端の性能を達成した。Stability AIは次のように述べた。

Stable Video 3Dは、3D生成、特に新しいビュー合成に大きな進歩をもたらしました。限られたパースペクティブや出力の不一致に悩まされることが多いこれまでのアプローチとは異なり、Stable Video 3Dは、どのようなアングルからでも首尾一貫したビューを、巧みな汎化によって提供できます。この機能は、ポーズ制御性を高めるだけでなく、複数のビューにわたって一貫したオブジェクトの外観を保証し、リアルで正確な3D生成の重要な側面を、さらに改善します。

InfoQは、SV3Dの基盤技術であるStable Video Diffusion(SVD)が2023年にリリースされた際に取り上げた。Stability AIは、2023年後半にも3D生成の初期の試みをリリースしている、Stable Zero123である。これはStable Diffusion 1.5の、テキストから画像へのモデルに基づいている。この試みは、Objaverseプロジェクトの一環としてAllen Institute for AI(AI2)が作成したオープンソースのZero1233D生成モデルに触発されたものだ。

Zero123とStable Zero123のアプローチの欠点は、これらのモデルが「マルチビューの一貫性を保つように設計されていない」ことである。なぜなら、これらのモデルは一度に1フレームずつしか新しいビューを作成しないため、3D生成の「もっとも重要な要件」を欠いているからである。対照的に、SVDモデルは一貫性のあるマルチフレーム動画を生成するように明示的に訓練されている。さらに、カメラ制御が可能なため、単純な軌道の3D映像以上のものを生成できるという利点もある。Stability AIによると、「我々の知る限り、SV3Dは576x576の解像度で制御可能なマルチビュー合成のための最初のビデオ拡散ベースのフレームワークである」。

SV3Dを訓練するために、Stability AIはObjaverseのオブジェクトを使用し、異なるカメラアングルから各オブジェクトの21フレームをレンダリングした。1つは静的軌道のみ、もう1つは動的軌道のみ、そして3つ目は静的軌道と動的軌道の両方を使用したものだ。3番目のモデルは、他の2つのモデルよりも優れた評価基準を達成した。

Hacker NewsのSV3Dに関するスレッドで、ユーザーはこのモデルの実現可能な応用について議論した。あるユーザーはこのように記述している。

もし表示されたアニメーションが代表的なものであれば、メッシュ出力は3dプリンターで使用するのに十分かもしれません。これで実験するのが楽しみです。

SV3Dモデルのウェイトは、Huggingfaceで非商用目的に限り利用可能である。このモデルは、Stability AIのメンバーシップ・プログラムを通じて商用利用が可能だ。

作者について

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

BT