このノートについて

自動生成されたAIトレンドフィード。★★★項目で永続化したいものは AI Trends MOC 経由で Atlas に昇格する。

2026-05-11 AIトレンド

今日のサマリー

今日の主役はAnthropicの Claude Opus 4.7 発売。Opus 4.6 → 4.7 で、SWE 系・長時間自律実行・ツール失敗時の継続性などagentic engineering 文脈の数値が軒並み一段上がっており、各社(Cursor / Devin / Replit / Vercel / XBOW など)が「もうデフォルトはこれ」と書く構図。arXiv 側は SkillOS(自己進化エージェントのskill curationをRLで学習)と Execution Lineage(agent loopをDAGに変換して中間成果の維持を保証)が出ていて、それぞれ「Claude Code skill運用の学術版」「Supervisor Pattern + bounded deterministic workflowの実証」という形で自分の現状の興味と直接重なる。ScaleLogic は long-horizon RL のスケーリング指数が論理表現力で単調増加する綺麗な結果。Reddit は今日も IP ブロックで全滅。

★★★ 注目

Claude Opus 4.7 発売:long-horizon自律性とツール失敗耐性が一段上

  • 原題: Introducing Claude Opus 4.7
  • ソース: anthropic
  • シグナル: 公式リリース・Opus系最新
  • 要点: Opus 4.6 を上回るソフトウェアエンジニアリング能力、特に「最も難しいタスク」で大きく改善。価格は据え置き(25 per Mtoken)。早期テスター証言が示す具体的な改善:(1) Cursor のCursorBenchで 58% → 70%、(2) Factory Droids で task success +10〜15%、(3) Devin が「数時間にわたって一貫した作業を続ける」、(4) Vercel が「systems code に proofs を書いてから着手する新しい挙動」、(5) XBOW の visual-acuity benchmark で 54.5% → 98.5%。共通する trait は dissonant-data trap への耐性tool failure を踏み越えて続行する reliabilityハーネスから見たときに 1-shot ではなく長時間実行を前提とする調整
  • なぜ刺さるか: コア領域「LLM技術全般・新モデル」直撃。さらにコア領域「長期タスクエージェント設計」の早期停止対策・ツール失敗耐性が公式テスター証言として明文化されており、ここ半年の harness 設計議論で繰り返し出てきた指標群がそのまま製品スペックに昇格した形。1:1 から並列 agent 管理への移行を Anthropic 自身が想定読者にしている点も注目に値する。

SkillOS:自己進化エージェントのskill curationをRLで学習

  • 原題: SkillOS: Learning Skill Curation for Self-Evolving Agents
  • ソース: arxiv
  • シグナル: cs.AI new
  • 要点: LLM agentの「再利用可能skill」を蓄積する仕組みは多いが、curation policy(どのskillを残し・更新し・捨てるか)はマニュアルかヒューリスティックか短期RLしかなかったという問題提起。frozen executor(skill検索+適用)と trainable curator(外部 SkillRepo を更新)の二層構成で、関連task群を grouped streamとして RL する。面白いのは結果の質的観察:学習済みcuratorが運用するうちに SkillRepo の各skillが「より構造化されたMarkdownファイル」へ進化し、higher-level meta-skillsが現れるという。
  • なぜ刺さるか: コア領域「Skill 設計」と「ハーネス工学」の交点。Claude Codeのskillはまさに「Markdownファイル + progressive disclosure」で、それを自動的に育てる仕組みを学術ベンチで検証した最初級の事例。an4mi の Ideaverse 上で skill を手書きで shepherd している現状に対して、curation policy を独立した role として抽象化する語彙を提供する。Subagent パイプラインの handoff ルール議論にも応用可能。

Execution Lineage:agent loopをDAGに変えて中間成果の維持を保証する

  • 原題: From Agent Loops to Deterministic Graphs: Execution Lineage for Reproducible AI-Native Work
  • ソース: arxiv
  • シグナル: cs.AI new
  • 要点: 通常のagentic workflowは暗黙的な会話stateに依存するため、(a) 安定したwork productを保つ、(b) 無関係な変更を波及させない、(c) 中間artifactを通して変更を伝搬する、が難しいと整理。これに対し artifact-producing computationのDAG + identity-based replay という execution model を提案。policy memo更新タスクで loop ベースラインと比較し、unrelated-branch updateで「DAG replayは memo を完全に保存・unrelated-branchの汚染ゼロ」、loopは memo を再生成して無関係文脈を持ち込む傾向。「最終回答の質」と「保持されたstateの質」は別物で、loopは success を装って partial state inconsistency を蓄積しうるという観察が強い。
  • なぜ刺さるか: コア領域「設計パターンの収束(Strict Phase-Gating, bounded deterministic workflows)」「Subagent パイプライン」「Environment Engineering」のすべてに刺さる。Anthropic 系の議論で出ていた「Supervisor Pattern」を学術側が DAG + replay という具体的primitiveに落とした内容と読める。今日のSkillOS(記憶/skillの育成)と組み合わせると、「DAG framework内で skill repo を更新する」という統合像が見えてくる。

ScaleLogic:long-horizon RLは「論理表現力」がスケーリング指数を決める

  • 原題: Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key
  • ソース: arxiv
  • シグナル: cs.AI new
  • 要点: 制御可能な合成logical reasoning環境 ScaleLogic を導入し、二軸(推論深さ D / 論理表現力)を独立に制御。RL 計算量 T が T ∝ D^γ という綺麗な power law に従い、表現力(implication only → first-order with ∀)に応じて指数 γ が 1.04 → 2.60 に単調増加。下流の数学・推論ベンチでは表現力の高い設定で訓練したモデルの方が +10.66 ポイント大きく、転移効率もよい。「どれだけ訓練するか」より「何で訓練するか」が長期推論の transfer を決めるという主張。
  • なぜ刺さるか: コア領域「長期タスクエージェント設計」「LLM評価・解釈可能性」のベンチマーク側。長期推論やlong-horizon agentに必要な計算資源を予算化するときに、curriculum 設計の段階で論理表現力を意図的に上げる経済合理性の根拠になる。METR的なability tracking や Ralph Loop 議論にも転用可能。

★★ 関連

★ 雑学

  • llm-gemini 0.31:Gemini 3.1 Flash-Lite が GA に — preview 解除のみで挙動はMarch時点の評価から変化なし。Anthropic Opus 4.7 と同日感のリリースなので並べて記録。(simon-willison)
  • Task Paralysis and AI — AIに頼ると「決められない病」が悪化するという経験的エッセイ。HN フロントページで議論多め。認知科学・習慣化のメカニズム関心と接続。(hackernews, 154pts)

メタ情報

  • 候補総数: 約 180(HN 13 / Anthropic news 11 / Simon Willison 9 / arXiv 150)
  • 採択: ★★★ 4 / ★★ 7 / ★ 2
  • 失敗ソース: reddit(4 sub すべて IP-block で 403、API JSON も同様)
  • 除外理由の傾向: Reddit 全滅・arXiv 側はagent/skill 関連を取り、ベンチマーク数字単発(GlazyBench, COVID infodemic 等)と特定ドメイン応用(neuroimaging, clinical, ceramic glaze など)はカット。Simon Willison の “vibe-coded toolネタ”(Big Words / GitHub Repo Stats)はカット。

AI Trends へ戻る