このノートについて

自動生成されたAIトレンドフィード。★★★項目で永続化したいものは AI Trends MOC 経由で Atlas に昇格する。

2026-05-16 AIトレンド

今日のサマリー

今日のarXivは「ハーネスを正面から監査する」流れの当たり日。HarnessAudit (2605.14271) が “出力は正しいが軌跡が違反している” を 210 タスク × 単/マルチ構成で炙り出し、EvolveMem (2605.13941) は記憶側の retrieval 設定を LLM が自分で書き換え続ける self-evolving 構成を提案、TabPFN-3 は test-time compute scaling をついに表形式 FM へ持ち込んだ。昨日の “メモリ統合は劣化する” / BenchJack の流れに「ハーネス全体を audit する」「retrieval パイプライン自身を進化させる」が積み上がってきた。Reddit 側は Anthropic の挙動の謎(セッション中に “go to sleep” と言い出す) と Qwen3.5 を RL で自己ジェイルブレイクさせて防御に活かす自家流 red-team が拾い物。HNはScott Alexanderの “シグモイドは助けてくれない” がスケーリング楽観論への解毒剤として読み応えあり。Anthropic 公式は本日 48h 内は事業提携のみで研究はゼロ。

★★★ 注目

HarnessAudit: エージェント実行ハーネスの安全性を軌跡レベルで監査する

  • 原題: Auditing Agent Harness Safety
  • ソース: arxiv
  • シグナル: cs.CL new submission, 2026-05-14
  • 要点: 「ハーネスは正しい良性応答を返したが、その軌跡では未認可リソースに触っていた/別エージェントに context を漏らしていた」という出力評価では絶対に見えない違反を主題化。境界順守・実行忠実度・システム安定性の3軸で full trajectory を audit する HarnessAudit を提案し、8 ドメイン 210 タスク × 単/マルチエージェント構成の HarnessAudit-Bench を新設。10 ハーネス構成を測定し (i) タスク完了と安全実行は乖離し違反は軌跡長と共に蓄積、(ii) 違反はリソースアクセスと エージェント間情報転送に集中、(iii) マルチエージェント協調は安全リスク面を拡大、(iv) ハーネス設計が安全配備の上限を決める、と結論。
  • なぜ刺さるか: 興味プロファイル「ハーネス工学全般 / Agent = Model + Harness の定式化 / Subagent パイプライン」全部に直撃。“出力スコアでは捕まらない違反” を明示的に切り出した点が評価系として新しい。Strict Phase-Gating や handoff ルールの根拠を補強する研究で、自分の subagent skill にも「context isolation の境界違反」を audit するフックを足す動機になる。

EvolveMem: メモリ “格納先” だけでなく “取り出し方” まで自己進化させる

  • 原題: EvolveMem: Self-Evolving Memory Architecture via AutoResearch for LLM Agents
  • ソース: arxiv
  • シグナル: cs.LG new submission, 2026-05-14
  • 要点: 既存のエージェント記憶は格納される知識は更新されるが、scoring 関数・fusion 戦略・回答生成ポリシーは deploy 時点で凍結される、という前提に切り込む。EvolveMem は retrieval 設定全体を構造化された action space として外に晒し、LLM 駆動の “diagnosis module” が質問単位の失敗ログを読んで根本原因を特定→設定変更を提案、guarded meta-analyzer が auto-revert と explore-on-stagnation で安全に適用する。閉ループの自己進化は AutoResearch プロセスとして動き、最小ベースラインから始めて action space に元から無かった configuration 次元まで自分で発見する。LoCoMo で最強 baseline +25.7%、MemBench で +18.9% 相対改善。
  • なぜ刺さるか: “structured note-taking” や compaction を「retrieval 後段」だけ手で調整してきた立場に対し、retrieval パイプライン自体を LLM に書き換えさせる発想。昨日の “Useful Memories Become Faulty…” と組で読むと、統合の盲目性を guarded meta-analyzer の自動 revert で抑え込む解になり得る。Subagent harness で「失敗ログ → 設定提案 → 安全適用」の3段はそのままパターン移植できる。

TabPFN-3: 表形式 FM に test-time compute scaling が来た

  • 原題: TabPFN-3: Technical Report
  • ソース: arxiv
  • シグナル: cs.LG technical report, 2026-05-14
  • 要点: 表形式の予測タスクに特化した foundation model TabPFN シリーズの新版。100 万行・200 列まで forward pass で扱え、TabPFN-2.5 比 20 倍高速、KV キャッシュ削減と row-chunking で H100 1 枚に乗る。TabArena でチューン済み GBT を含む全モデルを上回り、time-series / relational / tabular-text にも拡張。最大の主張は test-time compute scaling を表形式 FM に持ち込んだ TabPFN-3-Plus (Thinking) で、TabArena 全体で他全モデルを 200 Elo 以上、最大データセットでは 420 Elo 上回り、AutoGluon 1.5 extreme より 10x 高速。LLM・実データ・検索・他モデルを一切使わず合成データの prior だけで学習。
  • なぜ刺さるか: 興味プロファイル「新モデルリリース」「LLM 技術全般」直接ではないが、test-time compute scaling という思想が表形式という別モダリティで再現したのは大事件。LLM での Chain-of-Thought / xhigh / Thinking が “reasoning ⊃ search” の証として整理されつつあるところに、tabular で “Thinking モード” が圧勝するのは「scaling = 推論時計算」普遍説への追い風。これは流行りそう、というより既に来てる。

★★ 関連

★ 雑学

メタ情報

  • 候補総数: 約 190 件(HN 17 / Anthropic 2 (48h 内、いずれも事業提携) / Simon Willison 5 / arXiv ~90 (3 フィード × 直近) / Reddit ~75 (4 サブレディット))
  • 採択: ★★★ 3 / ★★ 7 / ★ 2
  • 失敗ソース: なし (Reddit JSON は old.reddit / www.reddit ともに Blocked、RSS フィードでフォールバック成功)
  • 除外理由の傾向: Anthropic は PwC/Gates Foundation 提携など事業告知のみで研究系 0 件、HN は Pixel 10 exploit / Waymo / DOJ 等 AI 外多数、arXiv は医療・教育ドメイン応用や TKG 推論など周辺応用、Reddit は使用量リセット案内・UI スクショ・Obsidian プラグイン紹介系を除外、生成画像系 1 件 (HN Image-blaster) も除外

AI Trends へ戻る