Instant3D: スパースビュー生成と大規模な再構成モデルによる高速にプロンプトから3Dへの変換

拡散モデルによるテキストから 3D への変換は、近年目覚ましい進歩を遂げています。

ただし、既存の手法は、推論の遅さ、多様性の低さ、ヤヌス問題といったスコア蒸留ベースの最適化に依存しているか、フィードフォワード手法であるため、3D トレーニングデータの不足により低品質の結果が生成されます。

本稿では、テキストプロンプトからフィードフォワード方式で高品質かつ多様な 3D アセットを生成する新しい手法である Instant3D を提案します。私たちは 2 段階のパラダイムを採用しています。

このパラダイムでは、まず、微調整された 2D テキストから画像への拡散モデルを使用して、テキストから 4 つの構造化された一貫したビューのまばらなセットを 1 ショットで生成し、次に生成された画像から NeRF を直接回帰します。

新しいトランスフォーマベースのスパースビュー再構成器。広範な実験を通じて、私たちの方法が高品質で多様なヤヌスフリーの 3D アセットを 20 秒以内に生成できることを実証しました。これは、1 ～ 10 時間かかる可能性がある以前の最適化ベースの方法よりも 2 桁高速です。

プロジェクトのウェブページ

Instant3D- スパースビュー生成と大規模な再構成モデ–ルによる高速テキストから 3D への変換

広範な実験を通じて、私たちの方法が高品質で多様なヤヌスフリーの 3D アセットを 20 秒以内に生成できることを実証しました。これは、1 ～ 10 時間かかる可能性がある以前の最適化ベースの方法よりも 2 桁高速です

図1。Instant3D のパイプライン全体。比較的少量の 3D データ (10K 形状) を使用して安定拡散を微調整して、2 × 2 のグリッド画像を生成します。各象限には、固定カメラ位置での同じオブジェクトのビューが含まれます。トランスフォーマベースの再構成器は、これら 4 つのビュー画像を取り込み、NeRF のトリプレーン表現を出力します。

2D画像を 3Dモデルに変換