深層学習モデルへの視覚と言語での説明性の付与
研究者:加藤 邦人
キーワード
深層学習、説明可能なAI(XAI)、生成AI、Vision and Language
説明可能なAI(XAI)の研究を行っています。視覚と言語の両方の面から判断根拠を説明できるAIの構築に成功しました。
最近の研究テーマ
✦ コンピュータビジョン、画像認識の基礎理論と産業応用
✦ 深層学習
✦ 画像認識、物体検出、追跡、行動認識、異常検知
✦ 感性情報処理
研究概要
昨今、マルチモーダルモデルを含む生成AIが民間レベルで幅広く利用されるようになりました。しかし、生成AIには間違った出力をした際にその理由が分からないという問題があります。これは、深層学習モデルの出力の根拠を人間がそのままでは理解することが困難であるというブラックボックス性によって引き起こされます。このブラックボックス性を解決するために、マルチモーダルモデルを用いて視覚と言語の両方の面から出力に対する根拠の説明を可能とする研究を行いました。大規模言語モデルは質問に答える際、その根拠をテキストとして追加で出力するChain of Thought(CoT)が可能です。これは言語的根拠となります。また、物体領域はある物体の画像中の位置をわかりやすく示せるため視覚的根拠になります。そこで、モデルが画像に関する質問に解答する際に解答に加えて、CoTによる言語的説明と物体領域による視覚的説明の両方を出力させることで、人間にとってより説明性のあるモデルの構築に成功しました。
産業界へのアピールポイント
- 生成AIの出力に根拠による説明性を付与
- 根拠から間違った原因を特定し改善可能
実用化例・活用例
- 外観検査で視覚と言語で根拠説明
- 画像領域を認識できるチャットボット