Googleから最近発表された画像生成AIの進化が話題になっています。そこで、本記事では、Googleの生成AIモデル「Gemini」の画像処理能力の一つである「空間把握力」に焦点を当てて検証してみました。
1.ビル街の写真を上空写真へ変換
「この写真使って、上空から撮った写真を作成してください。」とお願いしてみました。作成された写真は次のものです。
作成された上空からの写真は、元の写真の構造を保ちつつ、俯瞰的な視点で見事に再現されていました。
次に、別のビル街の写真を使って同じ依頼をしてみました。元の写真と上から見た写真です。
どちらの結果も、非常に完成度が高いと感じます。しかし、これらの写真は、AIが写真の撮影場所を特定し、Googleマップなどの衛星写真を参考に生成している可能性も否定できません。AIが純粋に元の2D画像から3D的な空間を把握したのか、学習データや検索情報を利用したのか、この時点では判断が難しいところです。
そこで、別の種類の写真を使ってみました。「馬の像」の写真です。
「この写真を反対側から撮った写真を作成してください。」とお願いしてみました。
残念ながら、反対側から撮った写真ではなく。馬の像が反転している写真になってしまいました。依頼の仕方が悪かったのかも知れません。
次に、同じ写真で「斜め上から撮った写真を作成してください。」とお願いしてみました。
作成された写真は、像の立体感が保たれ、影などもリアルに表現されており、非常に質の高いものでした。
しかし、この馬の像の写真もネット上で検索すれば見つかる写真であり、AIがネット上の類似写真や、同じ像の別アングルのデータを参照して生成した可能性が残ります。
今回はnano bananaの空間把握能力を調べてみました。ネット内に参考になる画像があると良いものを作成してくれるようですが、そういうデータがない場合にはまだまだ能力不足と思われます。
とは言え、nano banana の空間把握能力は確実に進化しており、今後さらに進化していくことが期待されます。
0 件のコメント:
コメントを投稿