このノートについて

自動生成されたAIトレンドフィード。★★★項目で永続化したいものは AI Trends MOC 経由で Atlas に昇格する。

2026-05-28 AIトレンド

今日のサマリー

今日は arXiv が「harness」を主題化した日。タイトルに harness が直接入った論文が2本(Harness Sensitivity の非単調性、SIA の harness+weight 自己改善)出てきて、“Agent = Model + Harness” がついに評価対象として論文の中心に来た感がある。もう一つの太い流れは長期エージェントの記憶と老化で、「Agent Memory はDBか」「Agent も老いる(AgingBench)」「MemFail」と、長寿命エージェントの状態管理を別ワークロードとして扱う論文が同日に3本並んだ。セキュリティ側はツール構成(permission laundering / ChainCaps)とメモリ汚染(MemMorph)と、いずれも「個別ツールのチェックは通るのに合成で破綻する」という同じ穴を突いている。Reddit は今日アクセス不可(403)で取得できず。

★★★ 注目

能力ではなくハーネス: ハーネス感度はエージェント階層を超えて非単調である

  • 原題: It’s Not the Capability: Harness Sensitivity Is Non-Monotone Across LLM Agent Tiers
  • ソース: arxiv (cs.AI)
  • シグナル: arXiv新着
  • 要点: 「ハーネスは構造化するほど信頼性が上がる、高能力モデルほど足場は要らない」という業界の暗黙仮定を、432ラン(6モデル×4能力ティア×3ハーネス条件: light/balanced/strict)の統制実験で正面から否定した。git検証付き24タスクのHEAT-24で測ったところ、フロンティアchatモデル(Gemini 2.5 Flash)ではハーネスを冗長にするとVTSRが29〜38ポイント低下する「ハーネス複雑性パラドックス」が出現。つまり「能力ティア↔最適ハーネス複雑度」は単調な逆相関ではなく、モデルごとに最適点が違う。
  • なぜ刺さるか: コア領域「ハーネス工学全般/ハーネス失敗パターン」の直撃。“足場は厚いほど良い” を定量的に崩した点が新しく、自分のsubagent/hook設計でも「strictにしすぎると逆効果」の経験則に理論的裏付けが付く。METR系の能力トラッキングともつながる、今年一番ブックマークすべき harness 論文。

SIA: ハーネスと重みの両方を更新する自己改善AI

  • 原題: SIA: Self Improving AI with Harness & Weight Updates
  • ソース: arxiv (cs.AI)
  • シグナル: arXiv新着
  • 要点: 自己改善研究は従来2つに割れていた——メタエージェントが足場(ツール・プロンプト・リトライ・探索手順)を書き換える「harness-update派」と、重みをRLで更新する「test-time training派」。両者は完全に分断していた。SIAはこれを統合し、Feedback-Agentがタスク特化エージェントのハーネスと重みの両方を同一ループで更新する。3つの対照的ドメインで評価。
  • なぜ刺さるか: コア領域「長期タスクエージェント設計/Ralph Loop的な自己改善」と「ハーネス工学」の交差点。harness工学を”プロンプト書き換え”だけでなく”重み更新”と同じ最適化平面に置いた定式化が新しい。harness-only と weight-only を明示的に対比している構成は、まさに自分のプロファイルの語彙そのもの。

エージェントの記憶はデータベースか? 長期AIエージェント記憶のためのデータ基盤の再考

  • 原題: Is Agent Memory a Database? Rethinking Data Foundations for Long-Term AI Agent Memory
  • ソース: arxiv (cs.AI)
  • シグナル: arXiv新着
  • 要点: 既存のエージェント記憶もDBパラダイムも「記憶=ストレージ」と捉え、正しさをレコード/埋め込み/エッジ単位で局所化している。そのため4つの失敗モードが再発する——無秩序な肥大、意味的リビジョンの欠如、容量起因の忘却、読み取り専用の検索。本論は長期記憶を「新しいデータ管理ワークロード」と位置づけ、正しさは個別レコードではなく状態軌跡(state trajectory)の性質だと主張。Governed Evolving Memory (GEM) として ingestion / revision / forgetting / retrieval の4つの状態レベル演算子に置き換える。
  • なぜ刺さるか: コア領域「外部記憶(git/file system)」「structured note-taking」「context管理」の核心。自分の auto memory システム(MEMORY.md + 個別ファイル)がまさに「肥大・古い事実の放置・読み取り専用」の問題を抱えており、revision/forgetting を一級演算子として設計に組み込む発想は即座に応用できる。

Claude Code を日常の主戦力に: CLAUDE.md, Skills, Subagents, Plugins, MCP

  • 原題: Claude Code as a Daily Driver: Claude.md, Skills, Subagents, Plugins, and MCPs
  • ソース: hackernews
  • シグナル: points=322, comments=216(HN #7)
  • 要点: Claude Code を「プロンプト&待ち」のチャットボットから「ガードレール付き自律エージェント」へ昇格させる実践ガイド。核は Boris Cherny の原則「Claudeに自分の仕事を検証する手段を与えよ」(これだけで品質2〜3倍)。.claude/ を層状の設定システムとして解説——project/global の2スコープ、CLAUDE.mdのカスケード(monorepoで親子両方ロード)、path-gated な rules/*.md、そして「新規作業は commands ではなく skills へ」(skillsは補助ファイル・allowed-tools・agent override対応)。Cat Wu の「ペアプロではなく委譲せよ」、失敗時は「二度と繰り返さないようCLAUDE.mdを更新して」と言わせる運用も。
  • なぜ刺さるか: コア領域「Claude Code内部構造・拡張/Skill設計/Subagent」の総まとめ。特に「commands より skills、rulesはpath-gate」という指針は自分のvaultのskill群(tracking-ai-trends等)の整理に直結。CLAUDE.mdカスケードはまだ活用しきれていない余地。

エージェントも老いる: 運用システムのためのエージェント寿命工学

  • 原題: Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems
  • ソース: arxiv (cs.AI)
  • シグナル: arXiv新着
  • 要点: 長期運用されるエージェントは恒常的システムなのに、いまだ「初期化直後のモデル」として評価されている。重みが凍結されていても、対話履歴の圧縮・成長する記憶ストアからの検索・更新後の事実改訂・定期メンテナンスにより、エージェントの実効状態は変化し続ける。つまり信頼性はベースモデルのスナップショット特性ではなくハーネス全体の寿命特性。AgingBench は劣化の有無だけでなく「どの形で劣化し、どこを修復すべきか」を縦断的に測る。
  • なぜ刺さるか: コア領域「context rot/長期タスクエージェント設計」に直撃。「day-oneベンチは寿命を測れない」という問題提起は、harness評価の時間軸を変える。上の Harness Sensitivity・GEM・MemFail と合わせて読むと「長寿命エージェントの状態管理」という今日のメインテーマが立ち上がる。

★★ 関連

★ 雑学

メタ情報

  • 候補総数: 約86(HN 15 / Simon Willison 6 / Anthropic 1 / arXiv 約64スクリーニング / Reddit 0)
  • 採択: ★★★ 5 / ★★ 7 / ★ 2
  • 失敗ソース: reddit(403 Blocked、4サブレディット全滅。old.reddit / www.reddit / .rss いずれもこのIPからブロック)
  • 除外理由の傾向: arXivの非LLMドメイン応用論文多数(医療/材料/時系列/フェデレーテッド学習等)、HNの非AI話題(Last.fm独立・SimCity・カナダ軍機等)、誇大/心理系(“Tech CEOs suffering from AI psychosis”)

AI Trends へ戻る