AIを活用した販売促進サービス事業のAppier Group(エイピア)は、AIエージェントが実行前に自らの問題解決能力を客観的に判定する新フレームワーク「Capability Calibration(能力の自己判定)」に関する最新の研究論文を3月24日に発表した。この自己評価メカニズムによって、AIエージェントがアクションを起こす前に「自律的に解決できるか」「外部ツールを呼び出すべきか」「人間に助けを求めるべきか」を自ら判断して信頼性を高める。
LLM(大規模言語モデル)の課題である「過信」や「ハルシネーション(もっともらしい嘘)」に対処する研究で、LLMモデルの評価軸を「一度の回答が正しいか」から「一貫してタスクを解決できるか」にシフトする。評価対象を「特定の指示に対するモデルの予想成功率」にすることによって、企業の実務に即した、より実用的かつ広範な問題解決能力の測定を可能にした。AIシステムの信頼性を担保して運用の安定性を高める。
研究では、3つのLLMと7つのデータセットを用いて信頼度推定手法を検証した。その結果、モデルの内部信号を使用して真に理解しているかを評価する「線形プローブ」が、高い推定精度と低い計算コストを両立する手法として有効と確認した。この技術を予測の最適化と推論リソースの動的配分の2つの活用シーンに想定している。Appierはこの研究成果を製品機能へと反映させ、広告・マーケティング領域における意思決定の自動化を推進する。
