2026年5月20日水曜日

Google I/O発表の最新AIで動画作成に挑戦!「油売りの職人技」は再現できるか?

 5月19日から開催されているGoogle I/Oにて、マルチモーダル機能(Omni)を搭載した新しいGeminiの可能性が示されました。その中で注目したのが、高度な生成能力を活かした動画作成の新機能です。


詳しい説明を聞くよりも「まずは自分で試してみるのが一番!」ということで、早速Gemini Ominiを使って動画作成に挑戦してみました。Google I/Oで発表された「Gemini 1.5 Pro/Flash」を使用して、プロンプトを作成すると、マルチモーダルなリアルタイム会話機能「Project Astra(Omni機能)」で会話する形で、動画作成ができます。


 第一の挑戦:基本のプロンプトを入力


お題として選んだのは、日本の歴史でお馴染みの「油売り(斎藤道三の逸話など)」のワンシーンです。一文銭の小さな穴に油を注ぎ込むという、高度な職人技をAIがどう表現するか試してみました。


入力したプロンプトはこちらです。


> 「日本の戦国時代に一人の油売り商人が道端で店を開いている。あるのは油を入れた壺と、それを汲み出す柄杓だけ。その場所に油を買いに来た客が現れ、油壺を彼の前に置く。その差し出された油壺の口に一文銭を載せ、漏斗(じょうご)を使わずに、少し高い位置から柄杓に入れた油を細く垂らして、一文銭の穴に直接通していく。」という動画を作成してください。


できあがった動画の一部の画像がこちらです。



……残念ながら、一文銭を持ち出しているのが「お客」の方になっており、私の意図した通りの満足な動画にはなりませんでした。


第二の挑戦:対話しながら修正を試みる


そこで、AIに修正のリクエスト(プロンプト)を送ってみました。


> 「上手にできていますね。ただ、一文銭を置く壺が、買い手が持ってきた壺ではなく、商人の壺のように見えます。一文銭を置くのは買い手の持ってきた油壺です。また、一文銭を置くのは商人の方で、買い手ではありません。もう一つ訂正してもらいたいのは、周りに人がいないことです。右手の屋根の下などに、数人の子供も含めた見物人がいてもいいと思います。


実はこのプロンプトを入力した際、うっかり商人を「承認」と誤変換してしまったのですが、AIは文脈からその間違いを賢く認識して、動画を作成し直してくれました。こうした「多少の誤字は汲み取ってくれる」のはAIの嬉しいところですね。



背景に人物(見物人)を入れてくれたものの、一文銭を乗せるのは相変わらず「客」の方のままでした。


この後も、「一文銭を乗せるのは商人です」とピンポイントで指示を出してみましたが、リクエストがうまく伝わらず、客が商人の壺に一文銭を乗せるような、ちぐはぐな動画が生成され続けました。


第三の挑戦:プロンプトを一から書き直す


部分的な修正ではAIが混乱しているようだったので、もともとのプロンプトを全面的に構造化し、一からリクエストを書き直してみました。


> 「もう一度、依頼文を書き直して、わかりやすくしてみました。以下のプロンプトに従って、作成した動画を作り直してください。

> 『日本の戦国時代に一人の油売り商人が道端で店を開いている。あるのは油を入れた壺と、それを汲み出す柄杓だけ。その場所に油を買いに来た客が現れ、油壺を彼の前に置く。その客の差し出した油壺の口に、商人は持っていた六文銭を載せます。そして、漏斗(じょうご)を使わずに、少し高い位置から柄杓に入れた油を細く垂らして、六文銭を汚さずにその穴に油を通して、客の油壺に油を注いでいく。』という動画を作成してください。」



今度は、ようやく商人が一文銭(プロンプトでは六文銭)を置くようになりました!

しかし、せっかく前回表示されていた周りの見物人が消えてしまい、肝心の油を注ぐ場面では、最初は一文銭を使わずに注いでしまうなど、なかなか完璧な整合性は保てませんでした。


今回の検証で分かったこと


結局、今回は100%思い通りの動画を作成することはできませんでした。

今回の題材である「日本の油売りの話」は、AIにとって少しハードルが高かったようです。特に「一文銭の四角い穴を通して油を入れる」という、日本の歴史的な文脈や、物理的な細かい因果関係を正確に理解するのが難しかったのかもしれません。


別途、斎藤道三が一文銭を通して油を注ぐ参考絵画がないか検索してみましたが、見つけることができませんでした。もし、あらかじめ自分でイメージに近い絵を描くか、構図の資料を用意して「画像+テキスト」で指示(マルチモーダルな指示)を出していれば、もっと良い動画ができた可能性があります。


最後に

思った通りの動画を完璧に作るのはまだ難しい一面もありますが、それでも「それっぽい雰囲気の良い映像」を瞬時に作ってくれる能力には目を見張るものがあります。


AIとのやり取りを数回繰り返す中で、「どう伝えればAIが理解しやすいか」のコツが少しずつ分かってきました。適切なプロンプトの出し方を工夫していけば、理想の動画にどんどん近づけられるはずです。皆さんもぜひ、恐れずに色々なプロンプトを試してみてはいかがですか!



0 件のコメント:

コメントを投稿

Google I/O発表の最新AIで動画作成に挑戦!「油売りの職人技」は再現できるか?

  5月19日から開催されているGoogle I/Oにて、マルチモーダル機能(Omni)を搭載した新しいGeminiの可能性が示されました。その中で注目したのが、高度な生成能力を活かした動画作成の新機能です。 詳しい説明を聞くよりも「まずは自分で試してみるのが一番!」ということで...