SONY

Audio, Speech & NLP

音を自在に操り、未知の音響体験を創造する

高音質化技術

ハイレゾを始め、オーディオ機器における音質へのニーズの高まりに対して、ソニーではハイレゾを楽しむためのさまざまな技術を開発しています。CDやMP3などの音源をソニー独自のAI技術でハイレゾ相当の情報量をもつ高解像度にアップスケーリングする「DSEE Ultimate」、無線伝送をターゲットにハイレゾに対応した高音質符号化技術「LDAC™」などの技術があります。

CDやMP3などの音源をアップスケーリングする技術イメージ CDやMP3などの音源をアップスケーリングする技術イメージ

ノイズキャンセリング

周囲の騒音を低減し、快適なリスニング環境を作り上げるノイズキャンセリング技術を開発しています。マイクやスピーカーの音響技術、電気回路・LSI技術、信号処理アルゴリズムを統合することにより、業界最高クラスの性能を小型・低消費電力で実現しています。また、さらなる性能追求のため「個人差の最適化」などの応用アルゴリズムも開発。現在はノイズキャンセリングだけでなく、マイクを使って周囲の音の中から必要な音だけを取り出す「外音取り込み機能」も並行して開発し、シーンに合わせた最適なリスニング環境の実現に取り組んでいます。

ノイズキャンセリングの概要図 ノイズキャンセリングの概要図

オーディオコーデック

これまでソニーは地上波デジタル放送や音楽配信サービスで採用されている音声圧縮方式「AAC」のMPEG標準化等に貢献してきました。近年は4Kや8K放送、3Dオーディオに関連する技術の開発及び標準化を行なっています。3Dオーディオでは空間のあらゆる方向からの音の到来を可能にすることで、これまでにない臨場感を実現しています。また、ソニーはスピーカーの位置や数に依存しない「オブジェクトオーディオ」などの新しい再生方式に関する技術開発に注力しています。さらには、近年注目されている自由視点映像に対応する3Dオーディオ再生にも取り組んでいます。

オーディオコーデックの推移の年表 オーディオコーデックの推移の年表

音源分離

音源分離は、過去の録音からボーカルを抜き出してRemixしたり、モノラル録音から楽器を抜き出して最新の空間音響フォーマットで空間に再配置したり、様々な応用が期待される技術です。クリエイターのフィードバックを受けながら10年以上にわたり最先端の音源分離技術を開発してきました。我々の音源分離は、国際的なコンペティションであるSignal Separation Evaluation Campaign (SiSEC)にて、多くの研究機関が参加する中、3回連続でベストスコアを出しています。

音源分離の概要イメージ 音源分離の概要イメージ

音声信号処理・音声認識

雑音や残響のある環境も想定し、ユーザーが自然に話す音声を正確に認識する技術を開発しています。そのためにソニーは「音声信号処理」と「音声認識」の技術開発に取り組み、音声の認識性能向上を追求しています。例えば、ロボティクスの音声インタラクションで動作時にメカノイズが生じるような劣悪条件においても深層学習型の音声信号処理・音声認識の最適統合を行うことにより高い音声認識性能を実現しています。このように機器形状やユースケースに合わせた技術の最適化により、徹底的な使い勝手の良さを実現します。

音声信号処理・音声認識の入力から出力までの処理イメージ 音声信号処理・音声認識の入力から出力までの処理イメージ

発話意味解析・自然言語処理

ユーザーの発話を理解するために、音声認識された発話文字列を、機械が解釈可能な情報形式(意味表現)に変換する「発話意味解析」の技術を開発しています。言い淀み、省略など様々な言語現象のモデル化と、言葉と実世界を関係づける意味体系のモデル化により、多様な発話表現に対応しています。また、自然言語そのものを理解するために、単語の切り出し、品詞や属性の付与、構文構造の抽出など、テキストを解析する「自然言語処理」と、曖昧性を含む言語情報を適切に解析する「知識情報処理」の技術を開発しています。

発話意味解析・自然言語処理の入力から出力までの処理イメージ 発話意味解析・自然言語処理の入力から出力までの処理イメージ
このページの先頭へ