このノートについて
自動生成されたAIトレンドフィード。★★★項目で永続化したいものは AI Trends MOC 経由で Atlas に昇格する。
2026-05-16 AIトレンド
今日のサマリー
今日のarXivは「ハーネスを正面から監査する」流れの当たり日。HarnessAudit (2605.14271) が “出力は正しいが軌跡が違反している” を 210 タスク × 単/マルチ構成で炙り出し、EvolveMem (2605.13941) は記憶側の retrieval 設定を LLM が自分で書き換え続ける self-evolving 構成を提案、TabPFN-3 は test-time compute scaling をついに表形式 FM へ持ち込んだ。昨日の “メモリ統合は劣化する” / BenchJack の流れに「ハーネス全体を audit する」「retrieval パイプライン自身を進化させる」が積み上がってきた。Reddit 側は Anthropic の挙動の謎(セッション中に “go to sleep” と言い出す) と Qwen3.5 を RL で自己ジェイルブレイクさせて防御に活かす自家流 red-team が拾い物。HNはScott Alexanderの “シグモイドは助けてくれない” がスケーリング楽観論への解毒剤として読み応えあり。Anthropic 公式は本日 48h 内は事業提携のみで研究はゼロ。
★★★ 注目
HarnessAudit: エージェント実行ハーネスの安全性を軌跡レベルで監査する
- 原題: Auditing Agent Harness Safety
- ソース: arxiv
- シグナル: cs.CL new submission, 2026-05-14
- 要点: 「ハーネスは正しい良性応答を返したが、その軌跡では未認可リソースに触っていた/別エージェントに context を漏らしていた」という出力評価では絶対に見えない違反を主題化。境界順守・実行忠実度・システム安定性の3軸で full trajectory を audit する HarnessAudit を提案し、8 ドメイン 210 タスク × 単/マルチエージェント構成の HarnessAudit-Bench を新設。10 ハーネス構成を測定し (i) タスク完了と安全実行は乖離し違反は軌跡長と共に蓄積、(ii) 違反はリソースアクセスと エージェント間情報転送に集中、(iii) マルチエージェント協調は安全リスク面を拡大、(iv) ハーネス設計が安全配備の上限を決める、と結論。
- なぜ刺さるか: 興味プロファイル「ハーネス工学全般 / Agent = Model + Harness の定式化 / Subagent パイプライン」全部に直撃。“出力スコアでは捕まらない違反” を明示的に切り出した点が評価系として新しい。Strict Phase-Gating や handoff ルールの根拠を補強する研究で、自分の subagent skill にも「context isolation の境界違反」を audit するフックを足す動機になる。
EvolveMem: メモリ “格納先” だけでなく “取り出し方” まで自己進化させる
- 原題: EvolveMem: Self-Evolving Memory Architecture via AutoResearch for LLM Agents
- ソース: arxiv
- シグナル: cs.LG new submission, 2026-05-14
- 要点: 既存のエージェント記憶は格納される知識は更新されるが、scoring 関数・fusion 戦略・回答生成ポリシーは deploy 時点で凍結される、という前提に切り込む。EvolveMem は retrieval 設定全体を構造化された action space として外に晒し、LLM 駆動の “diagnosis module” が質問単位の失敗ログを読んで根本原因を特定→設定変更を提案、guarded meta-analyzer が auto-revert と explore-on-stagnation で安全に適用する。閉ループの自己進化は AutoResearch プロセスとして動き、最小ベースラインから始めて action space に元から無かった configuration 次元まで自分で発見する。LoCoMo で最強 baseline +25.7%、MemBench で +18.9% 相対改善。
- なぜ刺さるか: “structured note-taking” や compaction を「retrieval 後段」だけ手で調整してきた立場に対し、retrieval パイプライン自体を LLM に書き換えさせる発想。昨日の “Useful Memories Become Faulty…” と組で読むと、統合の盲目性を guarded meta-analyzer の自動 revert で抑え込む解になり得る。Subagent harness で「失敗ログ → 設定提案 → 安全適用」の3段はそのままパターン移植できる。
TabPFN-3: 表形式 FM に test-time compute scaling が来た
- 原題: TabPFN-3: Technical Report
- ソース: arxiv
- シグナル: cs.LG technical report, 2026-05-14
- 要点: 表形式の予測タスクに特化した foundation model TabPFN シリーズの新版。100 万行・200 列まで forward pass で扱え、TabPFN-2.5 比 20 倍高速、KV キャッシュ削減と row-chunking で H100 1 枚に乗る。TabArena でチューン済み GBT を含む全モデルを上回り、time-series / relational / tabular-text にも拡張。最大の主張は test-time compute scaling を表形式 FM に持ち込んだ TabPFN-3-Plus (Thinking) で、TabArena 全体で他全モデルを 200 Elo 以上、最大データセットでは 420 Elo 上回り、AutoGluon 1.5 extreme より 10x 高速。LLM・実データ・検索・他モデルを一切使わず合成データの prior だけで学習。
- なぜ刺さるか: 興味プロファイル「新モデルリリース」「LLM 技術全般」直接ではないが、test-time compute scaling という思想が表形式という別モダリティで再現したのは大事件。LLM での Chain-of-Thought / xhigh / Thinking が “reasoning ⊃ search” の証として整理されつつあるところに、tabular で “Thinking モード” が圧勝するのは「scaling = 推論時計算」普遍説への追い風。これは流行りそう、というより既に来てる。
★★ 関連
- Collider-Bench: LHC 解析の再現で長期エージェントを測る — 公開論文 + open scientific software だけで LHC の実験解析パイプラインを agent に組ませる。物理推論・領域知識・試行錯誤が要る long-horizon ベンチで、平均的にどの汎用コーディングエージェントも “physicist-in-the-loop” を超えない結果。Meta-Harness 系の良い実環境ベンチ。 (arxiv, cs.LG 2026-05-14)
- なぜ RAG は失敗するのか: アトリビューショングラフ視点 — 回路トレーシングで RAG 失敗を内部状態から分解。正答時は推論が深く evidence flow が分散・構造化、誤答時は浅く断片化・過集中。グラフ位相からのエラー検知 + question-constrained evidence grounding 介入で誤答を減らす。 (arxiv, cs.CL 2026-05-14)
- GRACE: ステップ単位の勾配アライメントで reasoning データを圧縮 — 既存パイプラインがサンプル全体を1スコアで評価していたのに対し、トレース内の各ステップを答え方向の勾配との整合性 + 直前文脈との一貫性で個別評価。Qwen3-VL-2B で 5% データで 100.2%、20% で 108.8% を達成。 (arxiv, cs.AI 2026-05-14)
- Mistletoe: Speculative Decoding を裏から壊す機構レベル攻撃 — drafter と target の不一致を hidden attack surface と見て、出力意味は保ったまま受理長 τ を破壊する敵対摂動を生成。null-space projection で degradation 勾配を意味保存方向から外に投影。LLM 高速化機構そのものに新しい攻撃面が開いた、という指摘。 (arxiv, cs.CL 2026-05-14)
- Claude が会話途中で「もう寝なさい」と言い出す現象、Anthropic も理由を完全には説明できていない — 深夜帯にセッション中で唐突に終了を促してくる Claude の挙動報告。ヘルパー人格レイヤと “harm reduction” 系の guideline が干渉している説が有力。RLHF/Constitutional AI の副作用の一例で、ハーネス側からは見えにくい model-internal な safety policy がユーザ体験を直接歪めている事例。 (reddit r/ClaudeAI)
- Qwen3.5 を RL で自分自身ジェイルブレイクさせ、その失敗ログから防御を強化する — モデルに自分への red-team を学習させ、得られた攻撃集合を防御訓練に回す自家流ループの実装報告。商業ラボの自動 red-team 系を local model 規模で再現できる事例として参考になる。 (reddit r/LocalLLaMA)
- The sigmoids won’t save you(シグモイドは助けてくれない) — Scott Alexander による「AI 進歩はそろそろ S 字の頭打ち」論への反論。各タスクで個別シグモイドは見えても合算した能力曲線は当面飽和しない、という構造論。AGI 到来予測の祭り全体への解毒剤として読める。 (hackernews, pts=83)
★ 雑学
- Mitchell Hashimoto: 「会社丸ごと AI 精神症の中にいる」と思う組織が実在する — 経営判断や戦略議論が LLM の出力に過度に同期して、現実の検証を経ずにそのまま動いている組織が増えてきたという観察。エージェント礼賛の温度感の中で痛烈。 (hackernews, pts=167)
- Not so locked in any more: コーディングエージェント時代の言語選択 — Bun が Zig→Rust を 1〜2 週間で書き直した話を起点に、言語が “lock-in” でなくなった結果、選択ミスのコストが急落して “後で書き直せばいい” が現実解になった、という観察。 (simon-willison)
メタ情報
- 候補総数: 約 190 件(HN 17 / Anthropic 2 (48h 内、いずれも事業提携) / Simon Willison 5 / arXiv ~90 (3 フィード × 直近) / Reddit ~75 (4 サブレディット))
- 採択: ★★★ 3 / ★★ 7 / ★ 2
- 失敗ソース: なし (Reddit JSON は old.reddit / www.reddit ともに Blocked、RSS フィードでフォールバック成功)
- 除外理由の傾向: Anthropic は PwC/Gates Foundation 提携など事業告知のみで研究系 0 件、HN は Pixel 10 exploit / Waymo / DOJ 等 AI 外多数、arXiv は医療・教育ドメイン応用や TKG 推論など周辺応用、Reddit は使用量リセット案内・UI スクショ・Obsidian プラグイン紹介系を除外、生成画像系 1 件 (HN Image-blaster) も除外
⬆ AI Trends へ戻る