"ターゲット・スピーチ・ヒアリング "は、ワシントン大学で開発された新しいディープラーニング・アルゴリズムで、ユーザーが話者を"登録"し、その声を取り巻く環境ノイズをすべてキャンセルする。
現在このシステムでは、ヘッドホンを装着している人は、誰かが話しているのを見つめながらボタンをタップするか、3~5秒間その人を見る必要がある。これにより、ディープラーニング・モデルが話者の発声パターンを学習し、そのパターンにラッチするため、リスナーが動き回ったり、話者を見なくなっても、再生できる。
単純なアプローチは、ターゲット話者を登録するためにクリーンな発話例を要求することだ。しかし、これはヒアラブル・アプリケーションの領域には適していない。なぜならば、きれいな発話例を得ることは、実世界のシナリオでは困難であり、ユニークなユーザーインターフェースの問題が生じるからである。我々は、装着者がターゲットの話者を数秒間見て、話者の1つの、短く、非常にノイズの多い、バイノーラル例をキャプチャする、最初の登録インターフェースを提示する。
この登録ステップで重要なのは、装着者がスピーカーの方向を見ていることである。そのため、装着者の音声は2つのバイノーラルマイクロホンで揃うが、他の干渉スピーカーはそろわない可能性が高い。この例は、ターゲットスピーカーの特性を用いてニューラルネットワークを訓練し、対応する埋め込みベクトルを抽出するために使用される。次に、これを別のニューラルネットワークを使って、不協和音の中から目的の音声を抽出する。
研究者らによると、これは既存のノイズキャンセリングヘッドフォンと比べて大きな前進であり、すべての音を効果的に打ち消すことはできるが、スピーカーの音声特性に基づいて選択的にスピーカーを選ぶことはできないという。
これを可能にするために、研究チームは、最先端の音声分離ネットワークTFGridNetを最適化し、組み込みCPU上でリアルタイムに動作させること、合成データを使って現実世界の未知の話者にも汎化できるシステムを構築するためのトレーニング方法を見つけることなど、いくつかの問題を解決しなければならなかった。
セマンティック・ヒアリングの研究者の一人であるShyam Gollakota氏は、彼らのプロジェクトが現在のAIのアプローチと異なる点は、クラウドベースのサービスに依存することなく、オンデバイスAIを使って人々の聴覚知覚を修正することを目指している点だと強調する。
現時点では、システムは一度に一人の話者しか登録できない。もうひとつの制限は、同じ方向から他の大きな声が聞こえてこない場合にのみ登録が成功することだが、ユーザーは最初の結果に満足できない場合、明瞭度を向上させるためにスピーカーに対して再度登録できる。
研究チームはコードとデータセットをオープンソース化し、対象音声の聞き取りを改善するための今後の研究を促進している。