マルチモーダル・クロスモーダルで世界に挑む
研究者:田村 哲嗣
キーワード
マルチモーダル、クロスモーダル、音声処理、自然言語処理、画像処理、AI
マルチモーダル・クロスモーダルに限らず音声など個別分野の技術相談も歓迎いたします。
最近の研究テーマ
✦ 読唇・マルチモーダル音声認識の高精度化
✦ 画像から関連文書を見つけ出すクロスモーダル検索
✦ 機械状態監視のための音データ分析と異常検知
研究概要
音声処理、画像処理、自然言語処理を融合するマルチモーダル・クロスモーダル手法により、新たな価値を産む技術を創造し、産業界に貢献します。
- マルチモーダル情報処理は、複数のモダリティを同時統合的に用い、個別技術より高い性能を得る方法です。例として音声と顔画像を用いる音声認識が挙げられます。
- クロスモーダル情報処理は、複数のモダリティを相互横断的に連結し、新しい技術を生み出す方法です。例えば文章から画像を生成する技術に活用されています。
20年以上マルチモーダル・クロスモーダルの研究開発を行ってきました。これらは次世代のAI研究開発の潮流となってきております。産業界からのアプローチをお待ちしております。
産業界へのアピールポイント
- 音声、画像、自然言語処理の基礎技術、マルチモーダル・クロスモーダルの実績があります。
- 学術分野での学際的なAI活用実績があります。
- 複数の国内企業との共同研究の実績があります。
実用化例・活用例
- 音声と顔画像を用いたマルチモーダル音声認識
- 画像から文章を求めるクロスモーダル情報検索
- 音や振動による工場設備の異常検知・故障予測