下流タスクを意識した軽量なAI基盤モデル
研究者:加藤 邦人
AIの適用先の範囲を適度に限定することで、軽量ながら既存の大規模モデルに匹敵する汎用なAI基盤モデルの開発に成功しました。
最近の研究テーマ
✦ コンピュータビジョン、画像認識の基礎理論と産業応用
✦ 深層学習
✦ 画像認識、物体検出、追跡、行動認識、異常検知
✦ 感性情報処理
研究概要
近年、画像と言語等のモーダルを融合した大規模マルチタスクモデルが様々なタスクで高い性能を実現しています。しかし、これらのモデルは性能向上に伴い、モデルサイズの増大という問題をかかえています。モデルサイズの増大は学習コストを増加させ、出力を制限する必要があるタスクに適用する際のファインチューニングが難しくなっています。また、多くのモデルの学習方法が非公開となっており、ファイン
チューニングや学習の再現が困難です。
本研究では、学習済みの Encoder を重み凍結して使用する軽量な大規模 Vision & Language マルチタスクモデルを提案しました。さらにモデル構造を明らかにし、誰でも利用できる公開データセットを使用することにより、このモデルを容易にファインチューニングすることが可能になりました。本モデルの適用例として、Human-Object Interaction という人と物体の関連を予測するタスクにファインチューニングを行った結果、高い認識性能が認められ、モデルの軽量化により学習時間も大幅に短縮されることが確認されました。
提案モデル
Human-Object Interactionへの適用例
産業界へのアピールポイント
-
説明性の高い異常検知への応用
実用化例・活用例
- 低価格なGPUでの学習・推論
- 特定のタスクへのファインチューニング