選定理由
LLM+マルチエージェントを使って組織構造を模倣するあたりがトレンディで興味深い。Harvard Universityの研究。
Paper: https://arxiv.org/abs/2407.06567
Code: https://github.com/The-FinAI/FinCon
CVRFの発想は TextGrad によく似ていて、テキストによるフィードバックを勾配降下法に見立てるがやはり解析数学的な根拠はない。
概要
【社会課題】
金融市場は複雑で変動が激しく、迅速で連続的な意思決定が求められる。従来の人間中心の組織構造では、情報処理能力や記憶容量に限界があり適切な意思決定が難しい
【技術課題】
複数モダリティの非構造データ(ニュース、音声、財務など)を統合し、意味のある意思決定を行う必要がある。従来手法では強化学習の学習効率が悪く、陽に事前知識を与えない限り安定したポリシーの学習が困難。
【提案】
以下の特徴を持つLLMマルチエージェントフレームワークFinConを提案:
- 機能横断的なチーム連携:実際の投資会社の組織構造を模倣し、ManagerとAnalystが自然言語で連携しながら目標達成を目指す
- リスク管理:エピソードごとに自己評価を行い、投資ポリシーを更新することで意思決定の質を向上
- 概念的言語強化フィードバック(CVRF):エージェントの行動に対する言語のフィードバックを通じて、将来の意思決定に役立つ知識を強化し必要なノードに選択的に伝播
【効果】
以下の金融タスクで評価:
- 単一銘柄取引:従来手法よりも累積リターンが約26.5ポイント上昇
- ポートフォリオ管理:複数資産の組み合わせにおいて、リスク調整後のリターンが向上
またアブレーションスタディにおいて、リスク管理コンポーネントの効果が示された。
FINCON
FINCONは図2に示すようにManager-Analystsの階層的エージェントグループとリスク制御コンポーネントから成る。
Manager-Analysts Agent Group
FINCONは投資組織を模倣したマルチエージェント構成で、迅速な投資意思決定を実現している。設計目的は不要なコミュニケーションコストを抑えつつ、情報の提示と理解を最適化し、投資パフォーマンスを最大化することである。
各アナリストエージェントは、特定の情報源(uni-modal)または単一タスクに特化しており、市場のノイズを除去した報告をマネージャエージェントに提供する。エージェントは以下7種である:
- テキスト×3(ニュース、Form 10-k、アナリストレポート)の分析
- 音声(決算説明会音声)の分析
- テーブルデータ処理: モメンタムやCVaRの算出
- 銘柄選定: 金融工学における古典的なリスク分散手法を適用し、ポートフォリオ選定
Manager Agentはチーム全体の司令塔として機能し、次の4つの役割を担う:
- タスクの分解と割り当て: 投資目標と市場状況を入力とし分析タスクに分解した上で、各アナリストに自然言語で指示
- 情報統合と意思決定: アナリストの報告を統合し、単一銘柄取引では売買アクション、ポートフォリオ管理では銘柄比率の決定を行う。
- リスク制御: リスク制御コンポーネントと連携し、リスク耐性のある運用を実現。
- 信念の更新と学習(Conceptual Verbal Reinforcement Framework: CVRF): 各エピソード終了後に投資判断を評価し、自然言語による振り返り(conceptual feedback)を生成・記憶。これを通じて投資戦略に対する概念的な信念の更新を行い、今後の精度を向上させる。
Risk-Control Component
FINCONのリスク制御コンポーネントは2段階のリスク管理戦略を採用しており、エピソード内とエピソード間で異なるアプローチを取ることで、投資判断のロバスト性と持続的な改善を両立している。
エピソード内リスク制御は単一のエピソード内で観測されるリスク変動に即応する。まずポジションのCVaRを評価し、一定の閾値を下回るか急激に悪化した場合、Manager Agentはリスク回避的なアクション(例:ポジション縮小、保留)を選択する。これにより短期的かつ局所的なリスクへの即応が可能となり、大きな損失を回避できる。
エピソード間リスク制御では複数エピソードを通じた長期的な学習と最適化が行われる。エピソード終了後、Manager Agentは自身の投資行動とその結果を自然言語で振り返りを生成。この出力に基づき、リスク認識や意思決定方針を自然言語プロンプトとして更新・最適化する(algorithm.1)。
テスト時はCVRFは行わず、エピソード内リスク制御のみで実行する(algorithm.2)
CVRFのようなプロンプト自動チューニングは似たような研究が数多く存在しており、違いを以下に整理した。
観点 | CVRF(FINCON, 2024) | TextGrad(2023) | Reflexion(2023) | Self-Refine(2023) |
---|---|---|---|---|
主な目的 | 信念更新とリスク制御 | 自然言語による擬似勾配最適化 | 試行錯誤による自己改善 | 出力の反復的な洗練 |
フィードバック形式 | 概念的な自然言語 | 自然言語 → 勾配のような信号 | 自己評価的自然言語 | 自然言語によるレビュー |
アップデート対象 | Meta prompt(プロンプト自体の改善) | 埋め込み表現・モデルパラメータ | エピソードメモリ・行動方針 | テキスト出力内容 |
更新頻度 | エピソード単位 | トークン/ステップ単位 | 試行後ごと | 各出力後に繰り返し適用 |
数学的根拠 | 弱い(言語ベースの最適化) | 準形式的(text-as-gradient) | 数式的勾配はなし(ヒューリスティック) | 明確な勾配なし |
応用分野 | 金融(取引・リスク制御) | 汎用的(言語生成・分類など) | 強化学習タスク(探索含む) | 一般的な生成タスク(QA,文書生成など) |
実験
以下3つのリサーチクエスチョンについて検証した:
- FINCONは単一銘柄取引・ポートフォリオ管理といった金融ドメインの意思決定において、ロバスト性を持つか?
- エピソード内リスク制御は意思決定に有効か?
- エピソード間リスク制御はマネージャーエージェント間のやりとりにおいて、取引性能を高めるのに効果的か?
評価メトリクスは以下である:
- Cumulative Return (CR%): 累積リターン、高い方が良い
- Sharpe Ratio (SR): シャープレシオ、高い方が良い
- Max DrawDown(MDD%): 最大ドローダウン、低い方が良い
単一銘柄取引
単一銘柄取引での結果は表2で、赤がSOTA、青が二番目に良い結果である。多くの銘柄でFINCONはCR,SRでSOTAであり、さらにリスク管理コンポーネントの効果でMDDも低い結果となった。従来手法では、DRL(深層強化学習)ベースの手法はIPOなどの学習データ不足になりがちな銘柄に対して学習が収束せずパフォーマンスが下がる傾向があったり、FinAgent[Zhang2024]は類似度に基づいて過去の情報を取り出すがそれが古い情報を参照する場合がありエラーに繋がっていた。FINCONはそれらを克服し、Analystが解析した複数モダリティをタイムラインとして蓄積しておくことで誤りの少ない参照を実現している。
ポートフォリオ管理
従来のRLベース手法に比べてリターンとリスクのバランスに優れたポートフォリオ管理を実現した。マルチエージェントの役割分担とメタ認知的学習(CVRF)の効果が顕著に表れた。
アブレーションスタディ
リスク管理コンポーネントの効果が示されている。わずか4時間程度の学習でDRLよりも効果が高い点がポイントである。
Top comments (0)