Cutting Edge

できないことが実現できるVRをめざして

全天球映像技術の先を見据えたボリュメトリックキャプチャ技術

2020年7月31日

空間をまるごと撮りこむ技術

実在の人物や場所を3次元デジタルデータに変換し、それを高画質に再現するボリュメトリックキャプチャ(Volumetric Capture)技術。この技術は、実世界空間をまるごと撮りこみ、後から自由に視点を動かして視聴することを可能にする自由視点映像技術の一つです。新たな映像体験を提供できるだけでなく新しいコンテンツの生成手法としての側面も持っており、従来の映像制作における制限を解放し、エンタテインメント領域へのさまざまな応用が期待されています。ボリュメトリックキャプチャ技術のアルゴリズム開発に携わるR&Dセンターの二人のエンジニアに話を聞きました。

プロフィール

  • 廣田 洋一

    ソニー株式会社
    R&Dセンター
    Tokyo Laboratory 09

  • 菅野 尚子

    ソニー株式会社
    R&Dセンター
    Tokyo Laboratory 09

スポーツからエンタテインメント領域へ拡大
臨場感のある新しい映像コンテンツ

──映像制作の現場でも自由視点映像技術を積極的に取り入れているそうですね?

廣田:バーチャルリアリティ(VR)と呼ばれる仮想現実技術の中で、自由視点映像技術は数年前よりスポーツ放送の用途で採用されるなど、映像コンテンツを制作する現場でも認知が進みつつあります。特に360度をぐるりと見回すことのできる全天球映像技術は各社が提供するオンラインサービスでもサポートが進んでおり、体験されている方も多いと思われます。

この流れを受けて、撮像・制作・伝送・表示といった映像制作の一連のワークフローにおいても全天球映像技術をサポートする動きが活発になってきています。動画圧縮技術の標準化団体である MPEG では、MPEG-I Part-3として、360度映像のシステム規格であるOMAF (Omnidirectional MediA Format) の標準化が完了するなど、ビジネスでの実用化に向けた活動が進んでおり、すでにクリエイターによる臨場感のある新しいコンテンツが世に送り出されています。こういった中、我々もさまざまな映像制作の現場に向けて積極的に取り組みを進めています。

──この技術では、どのような価値を創出できるのでしょうか?

廣田:自由視点映像技術の進化においては“視点自由度”と“リアリティ”の両面が重要な要素になると我々は考えています。全天球映像技術の先を見据えて現在開発を進めているのがボリュメトリックキャプチャ技術です。当初はスポーツで注目された技術が、エンタテインメント領域へ拡大しており、アーティストのライブやテレビCMでの映像演出に使われるなど、この技術のもたらす新しい価値は映像コンテンツクリエイターにも認められつつあります。ソニーの持つ既存ビジネスや撮像・映像技術のアセットも活用し、低コストかつ高品質な自由視点映像の撮影を実現することで、プロフェッショナルから一般のお客さまにまでリーチするようなビジネス創造に貢献することを目標としています。

エンタテインメントやスポーツなどさまざまな領域で応用が期待される ボリュメトリックキャプチャ技術

自分がその場所にいるかのように感じるために

──どのような課題があるのでしょうか?

廣田:現在主流の全天球映像技術では、ヘッドマウントディスプレイを被って頭を振ることで一定の視点からの周囲360度を見回すことはできますが、見ている物の背後に回るなど、前後・左右・上下に動き回るような視点の移動はできません。CGで作られたVRコンテンツとの大きな差がここにあります。実写のVRコンテンツにおいて自分がその場所にいるかのように感じるためには、視点が現在よりももっと自由度を持つことが必須となります。また、高い臨場感を提供するには解像度やフレームレートなどの基本的な映像の品質も同時に上げていく必要があります。これらの実現のためには現在よりも多くのデータを取り扱う必要があり、まだまだ映像・表示技術の両面で伸びしろがあると考えています。

──その課題に対して、どのようなアプローチで解決していくのでしょうか?

菅野:自由視点映像技術では、複数台のカメラで被写体を取り囲むように配置し、撮影することで3Dモデルを生成しています。ボリュメトリックキャプチャの一番の特徴は本来カメラが無い視点(仮想視点)の映像を撮影された3Dモデルから生成することです。仮想視点を作るための工程は、まず複数台のカメラキャリブレーション、被写体の3Dモデル生成、3Dモデルへのテクスチャマッピング、カメラワークの生成が主な流れになります。大量のカメラを密に並べて生成されるバレットタイムムービーとは異なり、疎なカメラ配置から3次元デジタルデータを構築し映像を生成するため、映像クリエイターや視聴者が自由にインタラクティブに視点を操作できます。

廣田:我々は現在、「撮る」「見る」「送る」という3つの側面から技術開発を行っています。これら3領域の技術すべてが揃うことで、はじめて価値を実現できる、ソニーならではの強みであると言えます。

ソニーが培ってきた画像信号処理技術を結集

──コアとなる技術を伺いたいと思います。「撮る」という側面ではどのような技術があるのでしょうか?

廣田:どういったものを撮影対象とするかで最適な撮影システムはおのずと決まります。学術研究レベルでは数百台のカメラを使った巨大な撮影システムで実現している研究例は存在していますが、ビジネス性を考えるとあまり現実的ではありません。また、現在世にあるボリュメトリックキャプチャ技術を使った撮影システムは比較的狭い範囲を撮ることに特化しており、撮影対象者はほぼ一定の場所に留まることを求められます。したがって、アーティストなどが動き回ったり、複数人で同時にパフォーマンスしたりするような撮影には向いていません。

対して我々が開発した撮影システムは、エンタテインメント用途での差異化を念頭に、比較的広い範囲を撮影対象としており、撮影対象者が一人であっても複数人であっても、歩き回ったりダンスをしたりと、さまざまなパフォーマンスを撮影することができます。これをより高いレベルで実現するために、撮像センサーやレンズの種類、複数台のカメラを同期させる仕組み、カメラやライトの配置、背景のクロマキーの素材に至るまで、開発とPoC(Proof-of-Concept)での評価を繰り返してきました。

──撮影スタジオを新たに開設したそうですね。

廣田:はい、これまでの技術の蓄積を受けて2020年の1月には国内最大級の撮影スタジオをソニー本社に開設しました。スタジオで最初に撮影したのは、2本のロープを2人が向かい合って回し、その中でパフォーマンスを行う「ダブルダッチ」というロープスポーツです。撮影スタジオの特徴である直径5mの撮影範囲を最大限にいかすために、5人が動き回るダブルダッチが最適でした。細いロープを高速で回すなど、撮影・信号処理技術にとってチャレンジングな内容でしたが撮影は大成功でした。映像表現だけでなく、スポーツの解析用途にまで応用できる可能性を示すことができました。今後も、社内外と連携した技術開発・ビジネス検証のさらなる加速をめざしています。

国内最大級の撮影スタジオ(ソニー本社内)での撮影の様子 (撮影協力:プロダブルダッチチーム J-TRAP.)

──「撮る」という側面で、特にどの部分が難しいのでしょうか?

廣田:とりわけ複数台のカメラを同期させる仕組みについてはボリュメトリックキャプチャ技術ならではの厳しさが現れる部分です。すべてのカメラが寸分違わず同じ時刻にシャッターを切り、その映像を転送・集約して3次元化する処理が必要になります。そのため、グローバルシャッターを搭載した撮像センサーの採用や、各カメラへの同期信号の分配手段、また集約時に全カメラを再同期させる仕組みなど、ハードウェア・ソフトウェアの両面で様々な開発・評価を繰り返しています。

再生画質を追求、被写体の“リアルな雰囲気”を再現

──「見る」という側面で難しいポイントはなんでしょうか?

廣田:ボリュメトリックキャプチャ技術では実際にはカメラが存在しない視点の映像を、3Dコンピュータービジョンを使って作り出す必要があります(レンダリング処理)。ここで問題となるのが、不気味の谷ともいわれる“不自然さ”です。我々はそこにソニーが長年培ってきた高度な2D画像処理技術、そして機械学習技術を組み合わせることで、この問題を解決しています。作り出された映像といえども、重要なのは最終的に表示されるディスプレイ上での映像品質です。

菅野:今では当初の4倍以上のカメラを導入し、さらに表示デバイスの解像度も2Kから4K、8Kへと進化したことで、被写体の“リアルな雰囲気”を再現できるようになってきました。また被写体が動ける範囲・人数も開発当初から比較すると大きく改善されました。

廣田:我々が実現した、あたかもその視点から実際にカメラで撮ったかのような高品質な映像は、これまでのボリュメトリックキャプチャ技術とは一線を画すものとしてクリエイターの方々からも高い評価を受けています。画質のみならず、使いやすさの追求などさらなる差異化へも注力していきます。

一般的なカメラ映像(左)とボリュメトリックキャプチャ技術を使った映像(右)の比較

──「送る」という側面ではどのような課題があるのでしょうか?

廣田:我々のシステムは撮影から配信までをリアルタイムで行えることも大きな特長です。多数のカメラで撮影されたデータは非圧縮の状態で最大100GB/secにもおよぶため、これをローカルコンピューターで処理することは今のところ現実的ではありません。強力なコンピューティングリソースを柔軟に確保できるよう、我々は拡張性に優れたクラウド処理システムを独自に開発しました。これにより、例えばアーティストのライブをリアルタイムで配信し、ユーザーがそれを自由視点映像として楽しんだり、さらにインタラクションを図ったりすることが可能となっています。次世代のコミュニケーション手段としての応用も期待されています。

──エンタテインメント領域では、ソニー・ミュージックエンタテインメントと連携して進められたそうですね?

廣田:このボリュメトリック技術により、人物や場所を3次元データとして記録し、高画質に再現することが可能になりつつあります。この技術をどのように生かすかについては、PoCの場を提供してもらうなど、ソニー・ミュージックエンタテインメント(SMEJ)との連携があります。エンタテインメント領域の方々と一緒に新しい使い方を模索し、技術開発を進めていくことができるのは、ソニーならではの非常に大きな強みと言えます。

菅野:ライブ会場で大歓声の中、自分たちが作ったコンテンツが巨大なスクリーンで再生された瞬間にはこみ上げるものがありました。また同時に、アーティストのプロフェッショナルな仕事を間近で拝見し、我々ももっと頑張らなければと鼓舞される瞬間でもありました。これまでの開発がエンタテインメントの世界とのコラボレーションにつながったことに感動を覚えました。ライブやテレビ放送後にTwitterを見ると、「あの背景動画何!?ぐるぐる回ってどうやって撮ったの!?」といった反応があり、とても嬉しかったです。

──将来実現したいこと、成し遂げたいことを教えてください。

菅野:我々の研究グループでは、「実空間をまるごとデジタル化することで、3次元空間を操る(撮る・見る・送る)技術を提供する」ことをミッションに掲げ、日々の研究開発を進めています。一番力を入れているのは自由視点映像のリアルタイム配信です。これまでの自由視点映像は録画したコンテンツを配信していましたが、これからは遠隔地にいる被写体をリアルタイムに視点を変えながら見る、話すといったことを実現しようとしています。その先にはユーザー同士がリモートで同じ空間を共有し、インタラクションを取り、あたかもその人がその場所にいるように見える映像体験を作っていきたいと思っています。

廣田:大容量トラフィックを提供できる5Gが始まり、VRコンテンツを身近に体験できる時代がすぐそこまで来ています。さらにその先、各領域の技術の成熟が進むことで、現在の2次元の写真や動画のように、誰もが気軽に3次元データを撮影し、体験をシェアすることがおのずと出来るようになっていくと思われます。

スマートフォンを使ったARコンテンツへの応用も検討している

関連コンテンツ



関連記事