Cutting Edge

クラシック映画の音声がAIで蘇る

AIによる音源分離

2020年11月18日

複数の音が混じり合った音源から、それぞれの音を分離する

AIで飛躍的に進化した「聞き分ける」技術

さまざまな音が混じり合った音源から、個々の音を聞き分け、分離する音源分離の技術。従来難しいとされていた分野に、2013年にソニーは独自のAI技術を導入し、性能を飛躍的に向上させました。すでにクラシック映画のリメイク、スマートフォンによる雑音除去、音楽ストリーミングアプリのカラオケ化などで成果をあげており、今後さらなる幅広い分野での活用が期待されています。

プロフィール
  • 光藤 祐基

    ソニー株式会社
    R&Dセンター
    Tokyo Laboratory 21

  • ステファン・ユリッチ

    ソニー株式会社
    R&Dセンター
    Stuttgart Laboratory 1

“人間ならでは”の能力を、機械で再現する

──音源分離とはどのような技術でしょうか?

光藤:音源分離とは、音声データから不要なノイズを取り除いたり、音楽からボーカルや特定の楽器のパートだけを抜き出したりすることを可能にする技術です。人間は色々な音が混ざった演奏を聞いてもそれぞれの楽器の音を聞き分けたり、雑踏の中で会話している時も話し相手の声を聞き取ったりすることが自然にできますよね。こういった機能は、“人間ならでは”の能力です。最近までは2種類のジュースを混ぜ合わせ、そこから片方を取り出すくらい難易度の高い技術と言われてきました。しかしここ数年、AI技術の進化によって、この技術が飛躍的に進歩しています。

ユリッチ:これまでの研究では、混合過程に関する情報など、多くのドメイン知識を分離処理に導入してきました。また理論的に解析できるシンプルなモデルが好まれていました。しかし、最近は、AIを使ってデータから分離システムを学習する方がはるかに優れた結果を出すため、状況も変わってきています。

──どのような場面でAIが活用されているのでしょうか。

光藤:音源分離におけるAIでは、たとえば、ギターはこういう音で、こういう周波数を持ち、こういう時間変動をする、ということをニューラルネットワークが学習します。複数の音がどんなに混ざっていても、AIはそれを認識することが可能です。人がリンゴを見たときに「リンゴ」だと分かるのは、過去の経験から「リンゴ」がどんな色や形をしているのかを学習して知っているからです。AIの音源分離への応用は、この判断の仕組みと概念的には同じです。

ユリッチ:ニューラルネットワークは、学習と呼ばれるプロセスの中で、音声の特徴を識別するための情報を獲得します。この学習の中でニューラルネットワークは、私たちが一生の間に聴くことのできる音楽よりも多くの音楽をデータとして用いています。ニューラルネットワークが音楽の分離を学習するのにはこれだけのデータが必要なのです。

時間を巻き戻し、再び構築する

──音源分離の特長はどういったところでしょうか。

光藤:われわれは、音源分離が時間を巻き戻すことが可能な数少ない技術だと思っています。たとえば、別々に録音することができず、各トラックが一つの音源に録音された古い時代の音楽から、すべての音が混ざる前のボーカルを抽出してリミックスしたり、全楽器を分離して新しいフォーマットで収録したりすることができます。

──映画音声においても活用されているそうですね。

ユリッチ:映画を見ている人に臨場感を感じてもらうためには、それぞれの音を様々な方向から再生し立体的な音場を再現する必要があります。しかしクラシック映画の音声は、セリフや効果音が混ざった状態でしか残されていないため、これまでは音を抽出し、立体感のある音場を再現するには限界がありました。私たちは音源分離の技術をこの分野に応用できないか検討し、フォーリー(Foley)と呼ばれる効果音のライブラリーをAIに学習させた結果、古いマスターから個々の音を取り出すことに成功。今回、米国で発売された4K UHD版『アラビアのロレンス』や『ガンジー』は、この技術で抽出した音をソニー・ピクチャーズエンタテインメントのサウンドミキサーがドルビーアトモス方式で空間に再配置することで、臨場感のある音場を再現しています。(上記動画参照)

フォリーライブラリの分離プロセスと映画におけるアップミックスのイメージ

4K UHD版『アラビアのロレンス』や『ガンジー』などが収録された 「コロンビア・クラシックス・コレクション VOL.1」※

※日本での発売は未定です。

音源分離がもたらす価値を、より多くの人へ

──他にもさまざまなことに応用ができそうですね。

光藤:映画以外の用途では、マイクから拾った人の声のクリーンアップに活用されています。たとえば、ソニーの自律型エンタテインメントロボット”aibo”は、人間の声に反応してコミュニケーションをとりますが、本来であればそのまま周囲の音を集めると、aibo自身の機械音や周囲の風の音など、話しかけている人の声以外の多くの音を拾ってしまいます。音源分離の技術で人の声を聞き分け、それ以外の余計なノイズを除去することによって、音声認識能力を向上させることに成功しました。また、Xperia™スマートフォンで音声通話をする際も同じように人間の声のみをクリーンアップすることで、風切り音を気にせず通話することを可能にしています。さらに直近では、音楽のストリーミング配信の「カラオケ機能」として活用されています。音源分離の技術を用いてアーティストが配信する音楽からボーカルだけを消し、ユーザーの歌声を音源にミックスすることで、その場でまるでカラオケのような体験が可能になりました。

──今後の可能性や展望についてお聞かせください。

光藤:過去と現在のアーティストが時を越えてコラボレーションするためのタイムマシーンのような技術になればよいなと思っています。たまたま別の時代に生まれてしまったアート・エンタメの天才たちが共演できれば新たなコンテンツが生まれると思います。Sony PCLやSony Music Solutionsから我々の技術を使って、社外に向けてサービスが提供できるようになってきたところですので、今後が非常に楽しみです。

ユリッチ:技術的な視点では、音源数が未知なだけでなく、音源の種類も未知であるユニバーサル音源分離に向けて、研究者の関心が移行しています。彼らはこの次のステップを、商用ユースケースをさらに増やすことが可能となる興味深いチャレンジだと認識しています。

関連記事