Geminiで動画を作る方法 — 2026年版・テキストから動画生成の完全ガイド

「Geminiでどうやって動画を作るの?」——一番よく聞かれる質問ですが、ほとんどの人が少しだけ勘違いしています。Geminiのチャット欄に一文打ち込めば映画が返ってくる、というイメージです。実際の仕組みはそうではありません。そして配管を理解すると、抵抗するのをやめて、一発でいいクリップが出せるようになります。

正直なバージョンと、実用的なバージョン、両方をお伝えします。

まず: Geminiは頭脳、Veoはカメラ

Geminiはマルチモーダルなモデル群です。推論し、文章を書き、画像を理解し、プロンプトを解釈します。しかし動画のフレーム自体は描画しません。テキストを動く映像に変えるのは、Googleの専用動画生成モデル Veo(現行はVeo 3.1)です。「Geminiで動画を作る」とき、実際に起きているのは——Geminiが意図を解釈し、Veoが同期音声つきで本物の映像をレンダリングする、ということです。

これが重要なのは、画質がどこから来るかを教えてくれるからです。良いクリップは7割がプロンプト、3割がモデル。Veo 3.1は本当に優秀です——ネイティブ1080p、8秒クリップ、本物の同期音声(後から付ける無音ループではありません)。あなたの仕事は、Veoが実行できるプロンプトを与えることです。

Veoに到達する3つの方法

ルートはちょうど3つ。価格と手間のトレードオフです:

Geminiアプリ / Google AI Studio。無料枠はありますが、回数制限つき・ウォーターマークつきで、Veoへのアクセスはプランや地域で出たり消えたりします。1回きりの実験なら十分。
Google Cloud Vertex AI。生のAPI。完全な制御、ウォーターマークなし——ただしGCPアカウント、課金設定、APIキーが必要で、秒単位の従量課金(おなじみのクラウド請求の不安つき)。インフラを作るのでなければオーバースペックです。
Veoをサーバー側でラップしたホスト型ツール。プロンプトを打つだけで生成され、レンダリングした分だけ払う。キー不要、GCP不要、予想外の請求なし。私がGeminiOmniのテキスト動画ツールをこの形で作ったのは、まさに選択肢1と2が「ただクリップが欲しいだけの人」には制限が強すぎる、または儀式が多すぎるからです。

頻度で選んでください。月1回ならGeminiアプリで十分。週1回以上なら、ホスト型ラッパーがお金とGCPの面倒の両方を節約してくれます。

実際の手順(テキスト→動画)

どのルートでも、仕組みは同じです:

1. シーンをプロンプトで書く。 被写体・動作・場所・雰囲気を1〜2文で。型は後述します。

2. アスペクト比を決める。 YouTube・横長は16:9、リール/TikTok/ショートは9:16、フィード投稿は1:1。生成する前に決めてください——生成後に切り抜くと画質が落ちます。

3. 生成して待つ。 Veoは8秒クリップでおよそ30〜90秒。これはチャットの返信ではなくレンダリングなので、遅く感じて当然です。

4. 音声を確認する。 Veo 3.1は動画と一緒に音を生成します——足音、環境音、適切な音楽。音がおかしいなら、たいていモデルの失敗ではなくプロンプトの問題です(下記参照)。

5. ダウンロードまたは反復。 8割が正しいなら、プロンプトを書き直すのではなく、変数を1つだけ変えて再生成しましょう。

本当に効くプロンプトの型

何百回も生成して辿り着いた、毎回使うスケルトンがこれです:

[ショットの種類] の [被写体] が [動作] している、[場所]、[時間帯・照明]、[雰囲気]、[音の指定]。

具体例:

夜の渋谷スクランブル交差点を捉えたシネマティックなクレーンショット、ネオンの光、雨上がり、ノスタルジックで静かな雰囲気、遠くの街の喧騒と雨音。

ここに入っているもの:

カメラ指示(「シネマティックなクレーンショット」)——Veoはショット用語を尊重します。「クローズアップ」「ワイドの確立ショット」「トラッキングショット」「ドローンショット」で結果が劇的に変わります。
具体的な動作をする被写体——形容詞より動詞が効きます。「進入してくる電車」は「電車がある」に勝ります。
照明と時間帯——「ゴールデンアワー」「ネオンの夜」「曇りの朝」。この一語が雰囲気の5割を決めます。
明示的な音の指定——Veoは音を生成するので、何を生成すべきか(「環境ジャズ」「トタン屋根の雨音」「音楽なし、風の音だけ」)を伝えることが、完成したクリップと後から音を付け直すクリップの差になります。

プロンプトを損なうもの: 形容詞を10個積む、矛盾する指示(「速いスローモーション」)、視覚的な手がかりのない抽象概念(「希望についての動画」)。Veoは見えるものをレンダリングします。見えるものを与えてください。

よくある失敗とその直し方

「プロンプトの半分が無視された」 たぶん描写しすぎです。Veoの持ち時間は8秒——物語の起承転結は描けません。動作1つ、瞬間1つ。後半を削ってください。

「動きが偽物っぽい/ふわふわする」 物理的なアンカーを足してください——地面との接触、重さ、現実の参照(「重い樫のドアがゆっくり閉まる」)。宙に浮く抽象的な被写体は、2026年のどの動画モデルでも最も苦手な領域です。

「音がおかしい、または無い」 指定していないからです。明示的な音の節を足してください。無音が欲しいなら「音楽なし、環境音のみ」と書きます。

「写実性が足りない」 「35mmフィルムで撮影」「浅い被写界深度」「4Kシネマティック」を足し、動いている顔への期待は下げてください——顔は2026年でもどのモデルにとっても最難関です。

画像から動画: 使われていない近道

すでに気に入っている画像——商品写真、イラスト、キャラクター——があるなら、ゼロから描写しないでください。画像を直接渡して、動きだけをプロンプトする。これが「画像を動画に」や「一枚絵を動かす」で人が本当に求めているもので、構図をモデルに推測させない分、純粋なテキスト動画生成よりほぼ常に高画質です。フレームはあなたが渡し、モデルはそれを動かすだけ。多くのホスト型ツールは(私たちのものを含め)これを独立した画像→動画モードとして用意しています。

では、1本目への最速ルートは?

1回試してみたくてウォーターマークが気にならないなら、GeminiアプリでVeoを試してください。コンテンツ・マーケティング・クライアント仕事で定期的にやるなら、GCPの設定を丸ごと飛ばして、Veoをサーバー側でラップしたツールを使い、レンダリングした分だけ払いましょう。それがまさにGeminiOmniが埋める隙間です——プロンプトを打つと、約1分で本物の音声つき1080pクリップが返ってくる。管理するキーもなく、使っても使わなくても燃えていく月額サブスクもありません。

モデルはもう十分に良い。あなたと誇れるクリップの間に立っているのは、GeminiでもVeoでもなく——プロンプトです。上のスケルトンから始めて、変数を1つずつ変えていけば、驚くほど早く使いこなせるようになります。