音響・音声処理グループ

本グループでは、音響・音声を題材とした様々な技術を、組込みシステム向けに実現するための研究を行っています。 より臨場感のある音を再生するための技術や、マンマシンインタフェースにおける音声技術などについて、基礎的な研究から実践的な組込み実装まで取り組んでいます。

組込みシステム向け立体音像定位手法

3d.jpg

ある音源に対して、人間の知覚する音の空間的な像を音像と呼びます。一般に、ある場所から放出される音は、壁・床等の部屋の構造や媒体などによる反射・回折・散乱の影響や、人間の頭部や耳介の影響を受けて両耳鼓膜上に到達し、人間は聴覚器官を介することにより、これを音として知覚します。 このような音の空間的な情報を、ディジタル信号処理技術を用いて再現することで、ヘッドホンや2チャネルスピーカを用いて立体的で臨場感溢れる音像を得る手法を、立体音像定位手法と呼びます。 本研究でのアプローチとして、音源から聴取者の両耳までの音の伝達特性を、その周波数特性の形状に着目することで簡単化し、演算量を減らすことで、リアルタイム処理が可能なアルゴリズムの開発、ならびにその実装を行っています。

詳細はこちら

マイクロホンアレイによる音源方向推定手法

doa.jpg

近年、音源方向推定は、音の位置情報を用いた音源分離などの他、テレビ会議システムやロボットによる環境認識システムなど幅広い分野で求められ、研究が行われています。音源方向推定は一般に多数のマイクロホンを用いることにより実現されますが、システム規模が大きくなってしまうという問題点があります。そこで本研究では、小規模のアプリケーションにも適用できるよう、2つのマイクロホンを用いた音源方向推定手法を提案しています。

WFST を用いた連続音声認識アルゴリズムの効率化

onnsei_ninnshiki.png

音声認識処理技術は柔軟なインタフェースとして注目されています。現在でも、カーナビゲーションシステムの入力や、議事録の作成、電子カルテ作成など様々な分野で使用されています。音声認識の中で、文章単位の認識を行う連続音声認識は処理負荷が大きく、組込み機器上での実用的な動作が困難となっています。また、処理内容が入力音声に依存するため、近年主流となっているマルチコアプロセッサを用いて効率的に並列処理することも困難となっています。そこで、本研究では、マルチコアプロセッサを搭載する組込みシステムを対象とした、連続音声認識の並列処理システムの提案・実装を目指しています。なお、ベースとなる音声認識システムとして WFST (重み付き有限状態トランスデューサ)に基づくシステムを使用しています。


Last-modified: 2010-04-17 (土) 22:24:49