生成AIを使って「ミュージックビデオ」を作ってみた

明けましておめでとうございます。今年もどうぞよろしくお願い致します!

2026年一発目のブログに何を書くか迷いましたが、最近私がハマっている「生成AI」についてお話ししたいと思います。
去年の秋ごろ、YouTubeを眺めていると、ふと「AIだけで架空のミュージックビデオを作ってみた」という動画が流れてきました。
気になって見てみると、「え、これ本当にAIだけで作ったの?」と疑いたくなるほど高クオリティなミュージックビデオで、とても衝撃を受けたのを覚えています。

システム開発の業務でも生成AIは使用していて、かなり身近な存在ではあったのですが
「音楽」「映像」「世界観」までまとめて表現できるところまで来ているのか、と強い興味を持ちました。
そこで今回は、実際に生成AIを使ってミュージックビデオを作ってみた体験についてご紹介したいと思います。


生成AIでミュージックビデオはどう作るのか?

「AIでミュージックビデオを作る」と聞くと、
とても難しそう、専門知識が必要そう、というイメージを持たれるかもしれません。
しかし実際には、複数の生成AIサービスを役割ごとに使い分けることで、初心者でも制作することができました。

今回の制作フローは、大きく分けて以下の4ステップです。


① プロンプトやMV構成の相談:ChatGPT

まず最初に行ったのが、ミュージックビデオ全体の構成を考えることです。
いきなり音楽や映像を作り始めるのではなく、

  • どんな雰囲気の曲にしたいか

  • 明るいのか、幻想的なのか

  • どんな世界観の映像にするか

といったイメージを整理する必要があります。

ここで活躍したのがChatGPTです。
「こんな雰囲気のMVを作りたい」「近未来っぽい世界観にしたい」といったざっくりしたイメージを伝えると、
曲の方向性や映像構成のアイデア、さらには画像生成用のプロンプト案まで一緒に考えてくれました。

一人で悩むよりも、壁打ち相手として非常に心強い存在だと感じました。


② 音楽生成:suno.ai

次に行ったのが、ミュージックビデオの土台となる音楽の生成です。
今回はsuno.aiという音楽生成AIを使用しました。

曲のジャンルやテンポ、雰囲気、歌詞などをテキストで指定すると、
ボーカル入りの楽曲まで自動で生成してくれます。

実際に使ってみて驚いたのは、
「AIが作ったとは思えないほど自然な曲が出てくる」という点でした。
もちろん細かい好みの違いはありますが、個人で楽しむ用途としては十分に満足できるクオリティだと感じました。
また、専門的な知識はないため断言はできませんが、
使い方次第では、プロの制作現場でも活用される可能性があるのではないかと思えるほど完成度の高い楽曲でした。

以下は、「K-POP、R&B、POP」といった要素を指定したプロンプトから生成した楽曲です。
歌詞やプロンプトの内容についても、ChatGPTに相談しながら、納得のいく形になるまで調整を重ねました。


③ 画像生成:Midjourney

プロンプトのみで動画をいきなり生成することも可能ですが、その場合、どのような映像が生成されるか分からず、ややギャンブル性が高いと感じました。
思っていた雰囲気と違う映像になってしまうこともあり、修正を繰り返す必要が出てきます。

そこで今回は、まずMidjourneyを使って静止画を生成し、その画像をもとに動画を作成する方法を選びました。

あらかじめ画像を作成しておくことで、

  • ミュージックビデオ全体の世界観を統一しやすい

  • シーンごとのイメージを事前に確認できる

  • 「この画像が動いたらどうなるか」を想像しながら調整できる

といったメリットがあります。

実際にこの方法を取ったことで、
完成する映像がイメージしやすくなり、結果的に狙い通りのミュージックビデオに近づけることができたと感じました。


④ 動画生成:KlingAI

最後に、生成した画像を動画として動かす工程です。
ここではKlingAIを使用しました。

静止画に動きやカメラワークを加えることで、
一気に「ミュージックビデオらしさ」が出てきます。

この「画像生成 → 動画生成」の流れについて、実際に作成した動画を用いて説明します。

例えば、「手紙が床に落ちる」動画を作りたい場合、まずは空中に浮かんでいる手紙の画像を生成します。

その後、「手紙が床に落ちるように、カメラは手紙を追うように動かす」
といったプロンプトで指示を出すことで、以下のような動画が生成されました。


実際に作ってみて感じたこと

今回、生成AIを使ってミュージックビデオを作ってみて、
「AIを使えば簡単に作れる」というイメージとは少し違う印象を持ちました。

確かに、音楽や画像、動画を一から自分で制作する場合と比べると、
生成AIを使うことで制作のハードルは大きく下がります。
一方で、完全に自動で完成するわけではなく、想像以上に労力がかかるというのが正直な感想です。

どんな世界観にするのか、どんな雰囲気の映像にしたいのかを考え、
それを言葉としてプロンプトに落とし込むには、
ある程度の試行錯誤やセンスが必要になります。
最終的なアウトプットは、ほぼプロンプト次第と言っても過言ではありません。

また、生成AIは無料でも利用できますが、
実際に使ってみると、課金することで使える機能や表現の幅が大きく広がることを実感しました。
クオリティや作業効率を求める場合、用途に応じた課金は一つの選択肢だと感じます。


まとめ

完成したミュージックビデオをYouTubeに投稿したところ、
想像以上に多くの再生数があり、生成AIへの関心の高さを改めて感じました。
コメントの中には
「ここまでAIでできるなら、もうAIで作ればいいじゃん」
といった声も多く見られました。

一方で、その反応を見て、
「ボタン一つでAIがすべて自動で作ってくれる」
と誤解している方も、まだ一定数いるのではないかとも感じました。

実際には、AIはあくまでツールであり、
どのようなものを作りたいのかを考え、指示を出すのは人です。
生成AIを使うことで表現の可能性は大きく広がりますが、
その裏側には試行錯誤や工夫があり、決して何も考えずに完成するわけではありません。

今回の経験を通して、生成AIは「人の代わりになる存在」ではなく、
人のアイデアを形にするための強力なパートナーだと感じました。
今後もこうした技術に触れながら、理解を深めていきたいと思います。

最後に、今回のブログでご紹介した制作フローをもとに作成している、
現在制作途中のミュージックビデオを掲載します。
本ブログの説明で使用した音楽や画像素材を実際に組み合わせたものになります。

まだ途中段階ではありますが、
生成AIを活用するとどのような映像が作れるのか、
雰囲気だけでも感じていただければ幸いです。
※人物も全てAIで作成した架空の人物です。

--------------------------
開発支援・技術研修のご要望・ご相談はこちらから
--------------------------
【この技術ブログを読んだエンジニアの皆様へ】
カサレアルブログをお読みいただき、ありがとうございます!

私たちは、常に新しい技術に挑戦し、ユーザーのニーズに応えるサービスを提供しています。
もし、当社の技術への情熱や、会社・チーム・社員の雰囲気に共感いただけたなら、
ぜひ私たちと一緒に働きませんか?
現在、株式会社カサレアルでは事業拡大に伴い、新たな仲間となるエンジニアを積極的に募集しています。

少しでも興味をお持ちいただけましたら、まずは弊社のことを知っていただけると嬉しいです。
▼採用サイト
https://www.casareal.co.jp/recruit/career
▼社員インタビュー
https://hrmos.co/pages/casareal/jobs/0000016
▼エンジニアの仲間になる! エントリーはこちらから
https://hrmos.co/pages/casareal/jobs

皆様のエントリーを心よりお待ちしています!

Spring Data REST で RESTful Webサービスを作ってみよう
Zoomのハートが飛び交う!カサレアルの説明会で、技術好きな学生に特に「刺さった」3つの話。

コメントを残す

メールアドレスが公開されることはありません。 ※ が付いている欄は必須項目です

コメント ※

名前 ※

メール ※

サイト