Instant3D: スパースビュー生成と大規模な再構成モデ​​ルによる高速にプロンプトから3Dへの変換

拡散モデルによるテキストから 3D への変換は、近年目覚ましい進歩を遂げています。

ただし、既存の手法は、推論の遅さ、多様性の低さ、ヤヌス問題といったスコア蒸留ベースの最適化に依存しているか、フィードフォワード手法であるため、3D トレーニング データの不足により低品質の結果が生成されます。

本稿では、テキストプロンプトからフィードフォワード方式で高品質かつ多様な 3D アセットを生成する新しい手法である Instant3D を提案します。私たちは 2 段階のパラダイムを採用しています。

このパラダイムでは、まず、微調整された 2D テキストから画像への拡散モデルを使用して、テキストから 4 つの構造化された一貫したビューのまばらなセットを 1 ショットで生成し、次に生成された画像から NeRF を直接回帰します。

新しいトランスフォーマベースのスパースビュー再構成器。広範な実験を通じて、私たちの方法が高品質で多様なヤヌスフリーの 3D アセットを 20 秒以内に生成できることを実証しました。これは、1 ~ 10 時間かかる可能性がある以前の最適化ベースの方法よりも 2 桁高速です。

プロジェクトのウェブページ

Instant3D- スパースビュー生成と大規模な再構成モデ–ルによる高速テキストから 3D への変換

広範な実験を通じて、私たちの方法が高品質で多様なヤヌスフリーの 3D アセットを 20 秒以内に生成できることを実証しました。 これは、1 ~ 10 時間かかる可能性がある以前の最適化ベースの方法よりも 2 桁高速です

図1。Instant3D のパイプライン全体。比較的少量の 3D データ (10K 形状) を使用して安定拡散を微調整して、2 × 2 のグリッド画像を生成します。各象限には、固定カメラ位置での同じオブジェクトのビューが含まれます。トランスフォーマベースの再構成器は、これら 4 つのビュー画像を取り込み、NeRF のトリプレーン表現を出力します。

2D画像を 3Dモデル に変換

プロンプトからの3Dモデル生成

ネクタイをしてオフィスの椅子に座っているパンダ

折り紙のバイク

チェスをする 2 羽のコンゴウインコのオウム

青いバイク

ネクタイをしてオフィスの椅子に座っているパンダ

Next Post

1枚の画像からキャラクターアニメーション動画に変換する技術

金 12月 1 , 2023
1枚の画像からキャラクターアニメーション動画に変換する技術