3次元環境センシングは、カメラ画像とIMU(Inertial Measurement Unit)などのセンサー情報から環境の3次元構造とカメラ自身の3次元位置を認識する複数のコア技術で構成されます。
近年、仮想現実(VR)や拡張現実(AR)におけるアプリケーションが普及してきています。これらのアプリケーションを実現する上で、3次元位置認識(ヘッドトラッキング)技術と、その周囲の3次元構造を認識する技術がコア技術とされており、各社が独自の技術によって市場開拓を進めてきました。また一方で、ドローン・車・ロボットの自律移動における機体・車体制御や経路計画、障害物回避といったロボティクス分野においても、3次元位置と周囲の3次元構造を認識する技術は非常に重要なコア技術といえます。
ソニーでは、AIBOやQRIOといったエンタテインメントロボットの自律移動のための技術として開発がスタートしました。その技術は、2011年発表の「SmartAR」というモバイル機器向けのARアプリケーションの実現に貢献するなど、ソニーのさまざまな製品と関連の深い技術です。
さらに、ソニーセミコンダクタソリューションズと協力してセンシング専用プロセッサを開発、ARグラスの試作機に搭載し、2019年にはロサンゼルスと銀座で開催された「GHOSTBUSTERS ROOKIE TRAINING」というイベントに出展しました。日常空間と拡張現実が融合することで世界観に没入できる、新しいARエンタテインメント体験をユーザーに提供しました。
最近ではこれまでに培った技術をさらに発展させ、ロボティクスや移動体への応用も進め、2021年CESで発表されたプロフェッショナル向けドローンAirpeak S1への搭載に成功しました。ドローン自身の3次元位置と周辺の3次元構造を認識することで、ドローンの機体制御や障害物検知、GPSのない環境での安定飛行、高精度着陸などに大きく貢献しています。
私たちが開発している信号処理技術には、①カメラで撮影した画像をもとに、デバイスの位置を推定する技術 (SLAM / VPS)②画像をもとに、見ている対象の形状を復元する技術(3D Reconstruction)があります。
私たちの技術にとって重要なのは、精度、処理量、どんな環境でも安定して動作すること(ロバスト性)です。しかし、現実には、ブラーや暗所ノイズ、レンズ歪みといったカメラノイズのほか、日照変化、テクスチャレスといった環境側の課題など、画像からの自己位置推定や形状復元を難しくする様々な要因があります。これらの課題を解決し、あらゆる場所で安定した位置をデバイスに供給できるよう品質向上に努めています。
応用先によってはさらに問題が複雑化し、センシングだけの開発ではオンリーワンの性能を実現することが難しくなってきています。特に移動体では、センシングから制御までを一体的に考えて解決策を導くことが重要です。後述のMobility Sensingという技術では、限られたリソースの中で移動体の周辺環境をリアルタイムに把握しながら制御することで、障害物の自律的な回避を実現します。
位置を推定するための技術として、私たちはSLAM(Simultaneous Localization and Mapping)技術と、VPS(Visual Positioning System)技術を開発しています。
SLAMとは、周辺環境のマップを3次元モデルとしてリアルタイムで推定(Mapping)すると同時に、デバイス自体がそのモデルの中でどこに位置するのかを推定(Localization)する技術です。私たちのVisual SLAMはエッジデバイス上で情報を処理するので、軽量・低負荷・低レイテンシなアルゴリズムの開発が必要となります。ソニーはイメージセンサーを内製できるからこそ、アルゴリズムの課題を事業部と共有し、ハードウェア側からのアプローチを行うことも可能となります。
例えば、対象までの距離推定をより手軽に行うためにソニーセミコンダクタソリューションズの開発するToFイメージセンサーを活用したり、手振れ補正に使われるIMUの情報を使って、処理の効率の向上に取り組んでいます。
VPSは、市街地や商業施設などの環境内で、自分の位置を推定することを目的とした技術です。後述する3D Reconstructionの技術を利用して大規模の3次元地図情報を作成し、画像の情報を元に地図内での自分の位置を推定します。地図を介して複数のデバイスが互いの位置や周囲の情報をシェアすることで、地図情報に紐づいたAR体験や、デバイス間の新しいコミュニケーションを創出できます。
事前に作成した地図に対して、画像を入力して自分の位置を推定する場合には、画像の対応付けが必要になります。特に課題となるのは、地図作成時と利用時での照明の変化です。
機械の場合、デジタルの信号から昼夜の対応付けをする必要があり、モデル化の難易度は高まります。私たちは、ディープラーニングを活用した学習ベースのアプローチを用いて、昼夜のように見えの違いが大きな場合にも安定した自己位置推定を実現しています。
3D Reconstructionは、複数のカメラ画像を時空間的に統合することで、3次元構造の復元や解析を行う技術です。画像からカメラの位置と向きを推定することで、構造物との距離をピクセル単位で推定し、さらに法線ベクトル、信頼度、テクスチャーなど他の情報も取り入れてリアルな3Dモデルに落とし込みます。測距デバイス(LiDARなど)から得た深度に関する情報を加えることで、物理スケールの推定や処理の高速化・高精度化も可能となります。
3Dプリンタや自由視点コンテンツといったViewing用途に加えて、AR/VRでの衝突判定、ドローン・車載での障害物検知といったセンシング用途まで幅広い応用先が想定されています。前述したように、地図情報として自己位置推定への利用も行っています。
応用先の一つには、現実世界の構造物をバーチャル空間に取り込んで、人やロボットが利用できるようにするという用途があります。クラウドコンピューティングを用いれば、万単位の高精細画像をインプットして都市空間と同規模の3Dモデルの再現が可能となります。
一方で、用途によってはエッジデバイス上での軽量な処理が求められるケースもあります。私たちはリアルタイムの3Dモデリング技術も開発しており、スマートフォンやヘッドマウントディスプレイなど計算リソースが限られた環境でもリアルタイムに部屋の形状を取得するアプリケーションを提供しています。
私たちは車やドローンの自律移動の実現をめざし、3D ReconstructionやVisual SLAMといったコア技術をモビリティに応用した「Mobility Sensing」という技術の開発も進めています。
Mobility Sensingはコンピュータビジョンやディープラーニングの進歩、センサーやプロセッサの進化などを背景に、車の自動運転に牽引される形で技術開発が進んでいます。ドローンや自律移動ロボットなど移動体の種類も増えてきており、遠隔操作、危険回避、半自律移動などの需要がさらに高まっています。
Mobility Sensingでは、画像から移動体周辺の環境を認識し、自機からの距離や自己位置といった情報を統合すると同時に、そこからさらに、突然現れた障害物の瞬時な検知・回避や移動可能領域の認識も行います。
自律移動のために重要となるのは、リアルタイムな環境センシングを少ない処理遅延で実現することです。そのため、認識処理をデバイスに合わせて軽量かつ低電力に、メモリ使用量も少なく抑える必要があります。また、車やドローンに技術を適用する際には、モーターやエンジンの振動、刻一刻と変化する照明条件や周囲の環境に対する高いロバスト性が必要となります。
3次元環境センシングのアルゴリズム研究は世界中でさかんに行われていますが、アプリケーションを実現するプラットフォーム上でセンサーからアプリケーションまでを統合するシステムを実装することは、必ずしも容易ではありません。
ソニーは3次元環境センシングのコアデバイスであるイメージセンサーに大きな強みを持っています。また、エッジデバイスを内製する技術にも長けています。エッジデバイス上で高性能な3次元環境センシングを実現するためには、これらデバイス入力から認識処理まで、コア技術開発者の意見が反映されることが非常に重要です。
今回採用したセンシング用途向けのCMOSイメージセンサーは、高いロバスト性を実現するために様々な開発者の意見を反映させています。カメラを複数台構成で利用することを想定した外部信号による撮影タイミングの制御のほか、自動露光(Auto Exposure:AE)時にも露光の開始・終了タイミングを制御して露光中心時刻を一定間隔にし、IMU観測との同期を容易にする機能も盛り込みました。
さらに、認識処理を行うソニー製ビジョンセンシングプロセッサは、カメラやIMUといったサンプリング周波数が大きく異なるデバイス間のタイミング制御により時刻を同期できるシステムとなっており、これによりアルゴリズムの実現容易性を大幅に向上させています。また、内部プロセッサ構成は各アルゴリズムの処理内容に応じて選定・設計され、さらにアルゴリズム側もプロセッサ特性に応じて高速化した上で最適な回路上で実行される構成となっており、アルゴリズムの効率的な処理につながっています。
こうした細かい仕様までコア技術開発者の意見を反映してもらえたことで、Airpeak S1では高性能な3次元環境センシング技術をリアルタイムに低電力・低遅延で実現できました。
3D Reconstructionの開発は、もともとR&Dセンター シュトゥットガルトラボで始まりました。日本で開発がスタートしたVisual SLAMやVPSとは別に端を発したものでしたが、次第に国をまたいだ連携が強化されていきました。今では3D ReconstructionをVisual SLAMやVPSと組み合わせて、特定の3次元環境におけるモビリティの自律移動、リモートオペレーションへの活用、新しいAR・VRのアプリケーションの提案などをめざして開発を進めています。
社内の連携だけでなく、社外とのコラボレーションも積極的に取り入れています。ソニーは大学と協業する自社のプログラムを活用して、欧州や北米をはじめ海外の大学や研究機関との連携を強化しています。3D Reconstructionのプロジェクトもイタリアの大学との協業から生まれたものです。このプロジェクトは、ソニーモバイルとの協力により、スマートフォンで撮影した画像を基に3Dアバターをつくるアプリ「3Dクリエーター」として製品化を実現しました。現在も、オーストリアの大学に在学中の博士課程の学生が、プロジェクトを追求するために、新しいアルゴリズムの開発に取り組んでいます。コンピュータビジョンは大学での研究開発が非常に盛んな技術分野なので、情報交換しながら、常によりよい技術をめざしています。
実際に、私たちの3D Reconstruction技術は、デファクトスタンダードになっている公開ベンチマークでも、世界最高の性能を実現しています。現在、測量やゲーム、バーチャルプロダクションのCGアセット作成に向けたビジネス展開を見据えて、応用開発が進んでいます。
私たちの技術は、機械やデバイス自身の置かれている状況を理解することを可能にします。将来的に機械やデバイスが街の中で人と共存するようになると、機械やデバイス自身が「これから何をするのか」を決めるために、自分の位置や周囲の環境を把握することはますます重要になっていきます。
また、AR/VRへの応用事例では、現実の空間をデジタル化する3D Reconstructionの技術を活用し、SLAM / VPSと組み合わせることで、あたかもバーチャルの世界に飛び込んだかのような、あるいはバーチャルの世界が現実と融合したかのような体験をユーザーに提供しています。
3次元環境センシングはこのように、人やロボットが、現実とバーチャルの世界を行き来しながら生活するために使われ得る技術です。昨今、AIやメタバースなど、子供の頃に思い描いたSFのような世界が実現しつつあります。その中で私たちは、イメージセンサーやエンタテインメントビジネスというソニーの特長を活かしながら、未来の社会へ貢献していきたいと考えています。
3次元環境センシングは、車の自動運転などで今まさに脚光を浴びているホットな領域です。そうした事業環境で自らアルゴリズムを考えるのは非常に楽しいと思います。また、ソニーのエンジニアは常に製品化・サービス化をめざすため、開発中に自らプロトタイプをつくるのも特徴です。例えばドローン搭載用センサーの開発では、自分たちでドローンを購入し、開発中のアルゴリズムでドローンを実際に制御してみた感触から改善点を話し合い、それらを解決するコアアルゴリズムを開発していきます。この自分が開発したアルゴリズムが実際の製品に搭載された際にどう作用するかを実際に確認して「手触り感」を感じながら開発を楽しめる点もソニーの魅力だと思います。
3次元環境センシングがドローンやAR/VRなど新しい製品を生み出す魅力的な分野として注目を集める中でも、ソニーは実際にエポックメイキングな商品を生み出せる数少ない企業だと信じています。開発には信号処理や幾何学の知識に加え、最近は他の分野と同様にディープニューラルネットワーク(DNN)の技術を取り入れています。しかし、人間がモデル化した従来の手法すべてが代替されるわけではなく、新旧の技術をバランスよく組み合わせる必要があります。そうした挑戦もまた、この研究の面白さだと思っています。
コンピュータビジョンは非常にダイナミックな領域で、機械学習の進歩によりますます難易度が高まっています。ソニーはこれまで幾度もブレイクスルーを実現し、新しい用途を生み出し続けてきましたが、依然として課題もあります。大学や研究機関との協業を通じて常に最先端の技術を学び続けているのはこのためです。イノベーティブな製品を生み出すことは簡単ではありませんが、それこそがこの分野に携わる醍醐味だと思いますし、ソニーはそれができるユニークな環境だと思います。