インタビュー

井口尊仁
(オーディオメタバース CEO)
「音声AR×NFTによる
メタバースの新地平」

世の中の先行きを予見し、未来の方向性を考えるソニー独自のデザインリサーチプロジェクト「DESIGN VISION」。
クリエイティブセンターのデザイナー自らがリサーチやインタビューを行い、分析や提言につなげる取り組みです。
2022年のリサーチでは、デジタル世界への知識と理解を深めるため、メタバースでフィールドリサーチや有識者へのインタビューを実施しました。
本記事では、"インクルーシブなメタバース"を構築するAudio Metaverse株式会社代表の井口尊仁氏へのインタビュー記事を転載します。

井口尊仁/いぐち たかひと 連続起業家。1963年、岡山県生まれ。システムエンジニアなどを経て、99年にデジタオを設立し、ブログによるパブリッシングを事業化。2008年、頓智ドットを設立してARアプリ『セカイカメラ』をリリース、300万ダウンロードを突破する。12年、メガネ型コンピューターのスタートアップとしてテレパシーを設立し、最高経営責任者を務める。14年、サンフランシスコでドキドキを設立、ソーシャルオーディオアプリ『Dabel』をリリース。22年3月、社名をオーディオメタバースに改め、アプリ『Cubemint』をベータテスター向けに提供開始した。

「DESIGN VISION Annual Report 2022」における位置付け

「DESIGN VISION Annual Report 2022」では、デザイナー自らがメタバースを含む世界各地のフィールドでリサーチを行い、気付きや洞察からインサイトを抽出し、未来に向けて注目すべき4つのテーマを導き出しました。
そのテーマのひとつが「Social Porosity コミュニティの未来を拓く『社会の多孔性』」です。多孔性とは、"穴"や"隙間"の多い構造のことを指します。現代社会は同じ価値観を持った同士が集まり、コミュニティごとに分断されていく傾向にありますが、"穴"や"隙間"をもつことで、自律的なコミュニティを育んだり、多様な人々が自由に流入できる余地になると考えています。
また、テクノロジーの発達により、コミュニティの拠り所がフィジカルからデジタルに移り変わるなかで、障がいの有無にかかわらずあらゆる人が交流できるインクルーシブな場を構築することができるようになりました。
本記事では、"インクルーシブなメタバース"を実現する井口尊仁氏のインタビューを通して、余白のある自律分散型コミュニティについて考えていきます。

音声AR技術による、
新発想のNFTメタバース空間

現実世界と仮想世界の統合

井口さんは、音声によるインクルーシブなメタバース「オーディオメタバース」の開発に取り組んでいます。まずはサービスの概要について教えてください。

私たちが提供しているのは、スペーシャル(空間)オーディオによる音声AR技術を用いてメタバースの空間提供を行うサービスです。
これまでにも音声SNSはありましたが、大きな特徴としては音声を3Dにすることで距離感や位置関係を体感できるようになり、あたかも自分がそこにいるかのような没入感やライブ感を提供できることがまず一つ。2022年3月には最初のアプリ『Cubemint』をベータテスター向けに提供開始し、人同士が出会い、会話し、一緒に音楽を聴くなどの空間的な交流が行われています。

次に、音声メタバースにNFTを組み合わせたこと。これは、メタバース空間の経済的なエコシステムを構築する試みです。『Cubemint』がオーディオメタバースにアクセスするためのブラウザである一方、メタバース上には「キューブ」と呼ばれる多数のオーディオ空間が存在していて、ユーザーが空間をアセットとして所有することをNFTによって保証しています。

さらに私たちのオーディオメタバースには、物理空間と仮想空間の位置情報を対応させ、両者を統合する技術が導入されています。これは、音声ARによって作り出されるメタバース空間を物理空間の上にオーバーレイすることで、現実世界と仮想世界を統合する取り組みです。

オーディオメタバースのコンセプトビデオ

どのような経緯で、このサービスを開発しようと考えたのでしょうか?

私たちは2016年からソーシャルオーディオアプリ『Dabel』をアメリカや日本で展開し、特にマイノリティの方々から大きな反響をいただいてきました。音声によるコミュニケーションを通じて視覚障がい者をはじめ、ADHD(注意欠陥・多動症)やLGBTQの方々など、多様なユーザーの声に触れるうちに、現実空間で社会的な孤立を抱えやすい立場の人同士が音声空間で出会い、支え合う機会になっている。その手応えが、「こうした空間のあり方こそ、メタバースではないか」という気付きにつながりました。

視覚情報によるコミュニケーションは、どうしても発信上手な人に評価が集まります。しかし音声によるコミュニケーションの場合、人の話を聞く"傾聴力"のある人、話に寄り添ってくれる人にも大きな価値がある。そうした人たちをユーザー同士が評価し合う仕組みをつくる上で、分散型の基盤であるNFTが有効だと思いました。話す人も聞く人も、参加する誰もがメリットを享受できるように、NFTによってオーディオ空間をデジタル資産化し、価値が循環していくような世界を構築したいと考えたのです。『Cubemint』でも実際に、オーディオ空間のミント*1が行われ始めています。

話す人も聞く人も、
参加する誰もがメリットを
享受できるように、
NFTによって
オーディオ空間を
デジタル資産化し、
価値が循環していく
ような世界を構築したい
と考えたのです。
話す人も聞く人も、
参加する誰もがメリットを
享受できるように、
NFTによってオーディオ空間を
デジタル資産化し、
価値が循環していくような
世界を構築したいと
考えたのです。
話す人も聞く人も、
参加する誰もがメリットを
享受できるように、
NFTによってオーディオ空間を
デジタル資産化し、
価値が循環していくような
世界を構築したいと考えたのです。
話す人も聞く人も、
参加する誰もがメリットを
享受できるように、
NFTによってオーディオ空間を
デジタル資産化し、
価値が循環していくような
世界を構築したいと考えたのです。
話す人も聞く人も、参加する誰もが
メリットを享受できるように、NFTによって
オーディオ空間をデジタル資産化し、
価値が循環していくような世界を
構築したいと考えたのです。
話す人も聞く人も、参加する誰もが
メリットを享受できるように、NFTによって
オーディオ空間をデジタル資産化し、
価値が循環していくような世界を
構築したいと考えたのです。
話す人も聞く人も、参加する誰もがメリットを
享受できるように、NFTによってオーディオ空間を
デジタル資産化し、価値が循環していくような世界を
構築したいと考えたのです。

なぜこの点にこだわるのかといえば、私自身がARアプリ『セカイカメラ』を展開した頓智ドットのCEOと、メガネ型コンピューターを開発するために立ち上げたテレパシーのCEOを、相次いで退任した経験が原点になっています。非常に絶望的な体験をするなかで、強く感じたのは「人と話したい」という欲求でした。だからこそ、様々な障壁を乗り越えてあらゆる人同士が話し合う場をつくりたい一心で、14年にこの会社を立ち上げたというわけです。*2

*1 ミント(mint)…ブロックチェーンへの記録によってNFTを作成・発行することを表す言葉。英語における硬貨の鋳造(minting)に由来する。
*2 設立時の名称である株式会社ドキドキを、2022年3月にAudio Metaverse株式会社に社名変更。

「セカイカメラ」は場所にフォーカスしたARアプリ。 任意の場所でアプリのカメラをかざすと、エアタグという情報データをユーザーが自由に付加し、空間に表示され、共有する事ができる。2014年にサービス終了。

"孤独の解決"に向けて、
インクルーシブな
メタバースを構築

ビジュアルを省く意味

ソニーは数々の立体音響技術を有しており、2020年には埼玉県飯能市の「ムーミンバレーパーク」で「Sound AR」技術によって体験者の位置情報を元に音声を再生するサービスを展開するなど、音声によるコミュニケーションは注目領域の一つです。その上で井口さんの取り組みでは、音声ARによって360度のメタバース体験を提供しつつ、経済的かつ社会的な循環を作り出そうとしている点に感銘を受けました。

社会性という側面でいえば、視覚障がい者の人口は全世界で約4億人に上ります。そして、大きな問題になっている人間の孤独の解決に少しでも寄与したいという思いもあります。
ただし、インクルーシブなメタバースを実現するには、その世界をどのようにして維持・成長させていくかが大切です。私たちはスタートアップとして、成長の鍵を握るポイントを以下のように設定しています。
まず、固有の世界観があり、プロダクトの価値をはっきり提供できていること。次に、マーケットが存在すること。孤独は人生が続く限り存在する課題ですし、私たちにはオーディオによる空間体験を追求してきた実績があります。そしてNFTメタバースは、巨大な成長を遂げている領域です。

さらに音声ARの特性として、読んで理解するものよりもわかりやすく伝わりやすい点がまず一つ。次に、物理世界であれば距離や壁に隔てられて直接アクセスできない空間へすぐ移動できる点が挙げられます。後者については、例えば弊社のオフィス空間のURLへアクセスするだけですぐに入室することが可能であり、人が移動して誰かに会う行為を大幅に省力化することができます。

そうしたコミュニケーションを進める上で、あえてビジュアルを省くことについては、どんなメリットがあるのでしょう?

感覚を聴覚に絞ることで、人間性をよりピュアに表現できると感じています。服装をはじめ、社会的な地位や属性を表す視覚情報が省かれることで、逆にその人自身のキャラクターが表れてくる。
『Dabel』のユーザーである視覚障がい者のなかには、話し声を聞くだけで身長体重や健康状態、感情などがわかるという方もいました。つまり、社会的な表層にとらわれず、より深いコミュニケーションを実現できる可能性があるということです。
さらに現実拡張の側面からいえば、音声エフェクトで自分の感情を伝えるなど、現実世界では難しい表現の可能性も広がってくると考えています。

一方で目下の課題としては、"音声による空間提供"というイメージの難しさでしょうか。音声系のユーティリティというと、思い浮かぶのは基本的にラジオと電話です。ラジオは一方向、電話は双方向のメディアであり、そこに空間性を付加して人同士が移動して出会い、会話するというコミュニケーション自体、まだなかなか想像しづらいもの。認知をどう広げていくかが鍵になってくると思います。

感覚を聴覚に絞ることで、
人間性をよりピュアに
表現できると感じています。
服装をはじめ、社会的な地位や
属性を表す視覚情報が
省かれることで、逆に
その人自身のキャラクターが
表れてくる。
感覚を聴覚に絞ることで、
人間性をよりピュアに
表現できると感じています。
服装をはじめ、社会的な地位や
属性を表す視覚情報が
省かれることで、逆に
その人自身のキャラクターが
表れてくる。
感覚を聴覚に絞ることで、
人間性をよりピュアに
表現できると感じています。
服装をはじめ、社会的な地位や
属性を表す視覚情報が
省かれることで、逆に
その人自身のキャラクターが
表れてくる。
感覚を聴覚に絞ることで、
人間性をよりピュアに
表現できると感じています。
服装をはじめ、社会的な地位や
属性を表す視覚情報が
省かれることで、逆に
その人自身のキャラクターが
表れてくる。
感覚を聴覚に絞ることで、
人間性をよりピュアに表現できると感じています。
服装をはじめ、社会的な地位や属性を表す
視覚情報が省かれることで、
逆にその人自身のキャラクターが表れてくる。
感覚を聴覚に絞ることで、
人間性をよりピュアに表現できると感じています。
服装をはじめ、社会的な地位や属性を表す
視覚情報が省かれることで、
逆にその人自身のキャラクターが表れてくる。
感覚を聴覚に絞ることで、
人間性をよりピュアに表現できると感じています。
服装をはじめ、社会的な地位や属性を表す
視覚情報が省かれることで、
逆にその人自身のキャラクターが表れてくる。

具体的な機能としては、今後どのような展開を想定していますか。

ユーザーインタビューで要望が多かったのが、GPSで結びついた特定の空間のライブ音声を常に流しておきたいという声でした。公園やストリート、カフェやオフィスなどの環境音に浸っていたいという欲求ですね。マップサービスで世界中の路上の眺めが見られるようになったように、世界中の固有の場所の音を再現できるようにすれば、世界市場を狙える可能性があると考えています。
そしてもう一つが、物理空間の移動とメタバース上の移動をリンクさせたいという声です。つまり、自分の身体的な挙動でキューブ内を移動したり、聞こえ方が変わってきたりしてほしいということですね。

世界中の固有の場所の音を再現し、まるで現地にいるような体験を提供することで、世界市場への展開を狙う。

Web3.0時代、
向かうべき世界観が問われている

インクルーシブな仕組み

メタバース上のコミュニケーションについて、これまでの議論は視覚的なアバターの話に終始しがちでしたが、この点はどうお考えでしょうか。また、欧米ではアバターを現実世界の自分の延長線と捉える傾向が主流ですが、日本では自分とは別の人格で活動をしたいという風潮が強いように思います。

確かに、メタバースにおいてアバターは、自分が所有するプロファイルやアセットにアクセスするためのポインターとして有効です。その有効性を視覚ではなく音声でどう表現できるかについては、技術的にもデザイン的にも開発途上の状態ですが、インクルーシブな世界を目指す上で新たな可能性を感じています。
なお、この点については、GAFAMにはさまざまな障がいを抱えた人たちに向けたアクセシビリティやインクルーシブな仕組みに取り組むチームが設けられているように、日本の企業も積極的に取り組んでいかなければならない領域ではないでしょうか。

現実世界の自分とアバターとの関係については、大学でインド哲学を専攻していた視点からすると、"個人"という確固たる核が存在するという考え方に対して、仏教をはじめとするオリエンタリズムはアイデンティティを周囲との関係性の中に求める傾向があります。私自身も、リアルであれバーチャルであれ、人間の存在はお互いの関係性の中で互いに何を提供し合えるかに行き着くのではないかと思います。

私自身も、リアルであれ
バーチャルであれ、
人間の存在はお互いの
関係性の中で互いに
何を提供し合えるかに
行き着くのではないか
と思います。
私自身も、リアルであれ
バーチャルであれ、
人間の存在はお互いの
関係性の中で互いに
何を提供し合えるかに
行き着くのではないか
と思います。
私自身も、リアルであれ
バーチャルであれ、
人間の存在はお互いの
関係性の中で互いに
何を提供し合えるかに
行き着くのではないか
と思います。
私自身も、リアルであれ
バーチャルであれ、
人間の存在はお互いの
関係性の中で互いに
何を提供し合えるかに
行き着くのではないか
と思います。
私自身も、リアルであれバーチャルであれ、
人間の存在はお互いの関係性の中で
互いに何を提供し合えるかに
行き着くのではないかと思います。
私自身も、リアルであれバーチャルであれ、
人間の存在はお互いの関係性の中で
互いに何を提供し合えるかに
行き着くのではないかと思います。
私自身も、リアルであれバーチャルであれ、
人間の存在はお互いの関係性の中で
互いに何を提供し合えるかに
行き着くのではないかと思います。

そして、この点こそがWeb3.0のサービスの難しさにつながっている。Web2.0までは、提供者側がコア体験を提供することでユーザーサイクルを回すことができた。ところがWeb3.0では、経済の循環を含めた関係性のエコシステム全体を設計していかなければなりません。「何をするのか」がきちんと定義されていて、その上でコア体験とエコシステムの両軸を回していく必要があるのです。

オーディオメタバースの事業の構成要素、エコシステムを示したスライド。 このスライドを用いてWeb3.0/NFTメタバースで求められる経済性、体験をCube、Cubemint、Audio NFTでいかに実現するかを説明いただいた。

ただオープンワールドを作り込むだけでなく、「何をするか」というクエストが求められるということですね。

たとえクエストがなくても、『マインクラフト』や『あつまれ どうぶつの森』のように、一度確立されたオープンシステムには圧倒的な強さがあります。人生と同じように、楽しさや難しさを含めて、それぞれが自由な目的で参加できるオープンかつコミュニケーティブなエコシステムをどう作り上げていくか……そこが最も難しいところだと思います。

メタバースを視覚的に体験するにはゴーグルが必要ですが、聴覚であればすでに普及しているワイヤレスイヤホンでアクセスができます。その点も大きなメリットではないでしょうか。

その通りです。すでに『Cubemint』のユーザーによるNFT関連のプロジェクトが立ち上がり始めています。現実の特定の場所を訪れることで、そこに紐付いたSFのストーリーの音声がイヤホンから再生されるというものです。
その意味では、ソニーの「ウォークマン®」は最初期のARともいえるかもしれません。ですから、既存の技術の使い方次第で世界的なプラットフォームを構築できる可能性が十分にあるはずです。私たちも、Web3.0時代を見据えて世界観の部分をもっと磨き込んでいかないといけないと考えています。

DAOへの展望

運営者が支配的な権限を持つWeb2.0に対して、Web3.0は分散型の仕組みになるだけに、言論の自由を保ちながらヘイトスピーチなど、人々の分断をどう抑制するのかが問われてきます。

その点は、DAO(Decentralized Autonomous Organization/分散型自律組織)的な仕組みが必ず絡んでくると考えています。つまり、人と人の関係性の変化がすべてブロックチェーン上に記録されるなかで、ユーザー同士の自主性によるガバナンスをどう育てていくか。権力構造が分散化されていく以上、一人ひとりに社会的な参画性や自治の仕組みが求められてくると思います。

権力構造が分散化されていく
以上、一人ひとりに
社会的な参画性や
自治の仕組みが
求められてくると思います。
権力構造が分散化されていく
以上、一人ひとりに社会的な
参画性や自治の仕組みが
求められてくると思います。
権力構造が分散化されていく
以上、一人ひとりに社会的な
参画性や自治の仕組みが
求められてくると思います。
権力構造が分散化されていく
以上、一人ひとりに社会的な
参画性や自治の仕組みが
求められてくると思います。
権力構造が分散化されていく
以上、一人ひとりに社会的な
参画性や自治の仕組みが
求められてくると思います。
権力構造が分散化されていく以上、
一人ひとりに社会的な参画性や自治の仕組みが
求められてくると思います。
権力構造が分散化されていく以上、
一人ひとりに社会的な参画性や自治の仕組みが
求められてくると思います。

その上で、様々な世界が並行して存在できるのもメタバースの特徴です。現状の世界を見渡すと、アメリカや北欧、日本ではそれぞれ福祉制度や起業のしやすさ、治安などが異なりますが、そうした国/地域を選ぶように、文化や制度の自由度やリスクに応じて自分の依って立つメタバースを選ぶようになるかもしれません。それこそが、メタバースの今後の発展の伸びしろになるのではないでしょうか。

(2022年5月31日 東京でオンラインにて実施)

取材者コメントソニーグループ クリエイティブセンター デザインプロデューサー 稲垣岳夫

井口氏の取り組みは、音声という場をメタバース上で実空間とリンクづけることで、誰でもが自由に出入りできる場所を提供するというまさに「SOCIAL POROSITY」の1つの実例です。
公園やカフェやバーは色々な人がやってくる待ち合わせの場所であり、出会いの場であり、コミュニケーションの場でした。そういったものを音を使ってネット上に空間を再現することで、仕事をしながらカフェにいるような体験とそこにやってくる人々との出会いを作り出すことを実現させました。そして、同じ時間に集えたという感覚がコニュニティを強化し、コミュニティとしての行動へとつなげていくことになるでしょう。
現状のSNSは、フィルターバブルといわれる同じ価値観を持った人のコミュニティに分断されていく傾向にありますが、このようなリアルタイムでオープンに会話できる仕組みによって、人々はフィルターバブルに穴をあけ、コミュニティ同士をつなげ、多孔性をもった社会を築いていけるようになるのではないでしょうか。