OpenAI⁠入力テキストに従い精細な動画を生成するAIモデルSoraを発表

OpenAIは2024年2月16日、テキスト入力からリアルで精細な動画を生成する生成AIモデル「Sora」を発表した。動画のイメージをテキストプロンプトで入力することで詳細なシーンや複雑なカメラの動き、豊かなキャラクターを表現した最大60秒のビデオを作成できる。

Sora -OpenAI
URL:https://openai.com/sora

OpenAIのSoraの紹介ページでは、以下のようなプロンプトを入力して生成された動画サンプルを視聴することができる(プロンプト原文は英語⁠⁠。

  • スタイリッシュな女性が暖色に輝くネオンと活気に満ちた東京の街を歩いているところ。女性は黒い革のジャケット、赤く長いドレス、そして黒いブーツをまとっている。
  • ゴールドラッシュ時代のカリフォルニアの歴史的な映像
  • カメラが黒いルーフラックを備えた白いビンテージSUVの後ろを追い、SUVは急な山の斜面にある松の木に囲まれたダート道でスピードを上げる。タイヤから埃が舞い上がり、疾走するSUVには日光が当たり、ダート道も暖かい光をまとう。道路は遠くまで緩やかにカーブしており、他の車や車両の姿はない。道の両側の木はセコイアで、ところどころに緑が点在している。カーブを軽快に越えるSUVを後ろから見ると、まるで険しい地形を疾走しているように見える。ダート道は険しい丘や山に囲まれ、薄雲の上に青空がある。
  • いろいろな形式の美しい芸術作品が多数展示されているアートギャラリーのツアー
  • 35mmフィルム映画のような、走っている人のステッププリンティング[1]シーン

このほかのサンプルも追加で公開されている。

Soraは現在テスト運用中で、同社のレッドチーム(セキュリティテスト等を行う検証チーム)が重要な危害やリスクを評価するために利用したり、クリエイティブ分野の専門家に最も役立つようにモデルを進化させるためのフィードバックを得るため一部のアーティスト、デザイナー、映画製作者にアクセスを許可している。

同社によると,Soraはテキストで指定されたものが物理的にどのように存在するかも理解するが、まだ複雑なシーンでは原因と結果の特定の状況を理解できない場合があるとのこと。 たとえば、人がクッキーをかじったとしても、その後クッキーに噛み跡が残らないといった可能性がある。また、左右を混同するなど、空間的な詳細の表現にも課題が残っている。

このほか、誤解を招くコンテンツや極端な暴力,性的コンテンツ、他人の権利の侵害などポリシーに違反するテキスト入力をチェック、拒否する機能などを順次強化している最中であるともコメントしている。

おすすめ記事

記事・ニュース一覧