このノートについて
自動生成されたAIトレンドフィード。★★★項目で永続化したいものは AI Trends MOC 経由で Atlas に昇格する。
2026-06-10 AIトレンド
今日のサマリー
きょうの主役は Claude Fable 5 / Mythos 5 ローンチ。HN は1421ptで他を圧倒し、Mollick の “Mythos-class モデル所感” まで含めてエージェント長時間タスク(9時間半の自律実行・サブエージェント自動派生)という体験軸の話題が一気に表に出てきた。arXivは「agent harness を独立変数として扱う」論文がいくつも揃った日で、Scaffold Effects on GAIA(足場の elicitation gap を pre-registered で測る)、Is Grep All You Need?(CLIハーネス × grep vs vector の交互作用)、What Should a Skill Remember?(Skill rewriting をコスト最適化問題に再定義)が同じ方向を向いている。Reddit は環境からブロックされたため取得失敗。
★★★ 注目
Claude Fable 5 / Mythos 5 を発表 — Mythos クラス・モデルの一般提供開始
- 原題: Claude Fable 5
- ソース: anthropic(HN経由)
- シグナル: points=1421, comments=1123 / 公式ローンチ
- 要点: Fable 5 は Opus 4.8 の上に位置する Mythos クラスの一般公開モデルで、Mythos 5 はサイバー防御者向けに safeguards を外した同一モデル。Stripe では 5000万行 Ruby の codebase 全体移行を「1日」で完了(人間チーム2ヶ月相当)、Pokémon FireRed を vision-only minimal harness で完走、
Slay the Spireではファイルベース永続記憶で Opus 4.8 比3倍のスコア改善。価格は 50 per Mtok で Mythos Preview の半額以下。Cyber/Bio/Distillation の3軸 classifier を新設し、検出時は Opus 4.8 に自動フォールバック(セッションの5%未満)。30日のデータ保持を Mythos クラスに導入。 - なぜ刺さるか: 「Agent = Model + Harness」体系の Model 側ジャンプそのもの。Pokémon FireRed の “minimal harness で勝てる” 発言は、現状の Claude Code 周辺で積み上げてきた scaffold が縮退する可能性を示唆していて、ハーネス設計論的に直撃。Slay the Spire の persistent memory ablation も外部記憶/コンテキスト工学の “効くオーケストレーション” の実証データ。
Mythos クラス・モデルと働くとはどういう感覚か(Ethan Mollick)
- 原題: What it feels like to work with Mythos
- ソース: hackernews
- シグナル: points=128, comments=117
- 要点: Mollick が Fable 5 早期アクセスで実装した isochrone map と “Concord”(人間・AI 評価キャリブレーション分析ソフト)の体験記。isochrone map では Fable がメインで動きつつ Sonnet 系のサブエージェントを多数 spawn し、2,200便の航空便、TGV/新幹線の時刻表、各国道路速度を学術論文経由で自動収集して構築。Concord は19ページの設計ドキュメントを生成→9.5時間連続実行で完成。Mollick は「私はもう wizard ではなく patron(依頼主)だ。詳細な意思決定はAIスタジオの中で行われ、見えない」と表現。
- なぜ刺さるか: subagent パイプラインが「明示的なフレームワーク」ではなく Model 側に内製されつつある証拠。Anthropic の長期タスクエージェント設計(METR、Ralph Loop、外部記憶)が “Model + minimal harness” 側に吸い上げられていく方向と一致する。Mollick の “patron metaphor” は human-on-the-loop の運用論として後から引用しやすい。
Grep があれば十分か? エージェントハーネスが Agentic Search を変える
- 原題: Is Grep All You Need? How Agent Harnesses Reshape Agentic Search
- ソース: arxiv(HN経由, 103pt)
- シグナル: cs.CL, points=103
- 要点: LongMemEval 116問サンプル上で grep vs vector 検索を独自ハーネス Chronos と Claude Code / Codex / Gemini CLI でクロス比較。tool 結果の inline vs file-based 提示の影響、コンテキストにノイズ会話履歴を混入した場合の頑健性まで2実験で測る。結論: grepが一般的にvector より精度が高いが、最終スコアは「どのハーネス・どの tool-calling 形式か」で大きく動き、同じ会話データでもハーネスが結果を作る。
- なぜ刺さるか: “harness は独立変数である” という主張の実証。Claude Code の Read/Grep ファースト設計の根拠データとしてそのまま使える。Anthropic の
defending-code-reference-harness文脈にも接続する。
AlloSpatial: 空間推論のための Agentic Harness Framework
- 原題: AlloSpatial: Agentic Harness Framework for Spatial Reasoning in Foundation Models
- ソース: arxiv
- シグナル: cs.AI
- 要点: マルチモーダル基盤モデルが「自己中心的観察 → 全体マップ」変換に弱い問題に対し、World2Mind 認知マッピングモジュールと agentic harness を組み合わせた框組。MFM の “egocentric → allocentric” 変換のボトルネックを harness 側で外挿する立て付け。
- なぜ刺さるか: タイトルに “Agentic Harness Framework” を冠した論文が arXiv に出てきたこと自体がトレンド指標。harness をモデル能力の補正レイヤとして明示する流れが学術側にも浸透している。詳しくは Read で深掘り候補。
Skill は何を覚えるべきか — コスト意識ある Skill Rewriting の品質・コストトレードオフ
- 原題: What Should a Skill Remember? Quality-Cost Trade-offs in Cost-Aware Skill Rewriting for Language Model Agents
- ソース: arxiv
- シグナル: cs.CL
- 要点: Skill(再利用可能な手順ドキュメント=ワークフロー / tool use / 実装パターン / 検証チェック / ドメインルール)の rewriting を単純な prompt compression として扱うと、探索・デバッグ・回復に必要な “sparse operational anchors” を削ってしまい、結果としてエージェントが高コスト化する。controlled framework で経済学的視点から再定義。
- なぜ刺さるか: Claude Code の Skill 設計議論(progressive disclosure、500行目安、descriptionの妙)と完全に同じ問題を学術的にフォーマライズしている。kepano/obsidian-skills でも Skill を短くしすぎると subagent 周りで挙動が落ちる事例があり、この論文の “operational anchor” 概念は直接 Skill 設計の語彙として使えそう。
Scaffold Effects on GAIA — モデル能力と足場の elicitation gap を pre-registered で測る
- 原題: Scaffold Effects on GAIA: A Controlled Comparison
- ソース: arxiv
- シグナル: cs.AI
- 要点: 公開されているエージェントベンチマークスコアは「モデル本体の能力」と「scaffold が引き出せる能力」が混ざっており、その elicitation gap の大きさは未定量。ReAct / Planner-Actor-Rater multi-agent / planner-then-executor の3 scaffold × 5 model(Claude Opus 4.7、Sonnet 4.6、Haiku 4.5、Gemini 3.1 Pro 等)の pre-registered controlled comparison を実施。
- なぜ刺さるか: 「ハーネス工学はベンチマーク評価層でちゃんと統制すべき」という主張の実装。HAL や Meta-Harness 系のベンチマーク議論と直接接続するし、「同じモデルでも harness が違うと能力が変わる」という Anthropic ブログの口上に、独立した第三者実験が出てきた格好。
★★ 関連
- SearchSwarm: 長期タスク Deep Research のための Delegation Intelligence — 主エージェントがサブエージェントへタスク分解・委譲し、要約だけ返してコンテキスト予算を温存するパラダイム。delegation intelligence の設計に焦点。(arxiv, cs.AI)
- Strained Coherence: コーディングエージェントの実行軌跡における Pre-Failure Signal — エージェントが「これは問題だ」と推論で言語化しながらそのまま進める失敗パターン(verbalized reward hacking 隣接)。停止判断シグナルとして使える可能性。(arxiv, cs.LG)
- Still: 1パスで償却する KV Cache Compaction — 長期エージェントの KV キャッシュ圧縮を、軽量で表現力もあって trajectory 横断で再利用可能にする手法。コンテキスト工学のインフラ側。(arxiv, cs.LG)
- PerspectiveGap: マルチエージェントオーケストレーションプロンプト用ベンチマーク — 「サブエージェントが何を知るべきか」をオーケストレータが指定する能力を 110 シナリオで測る。multi-agent 設計の盲点を可視化。(arxiv, cs.CL)
- 1億ユーザー規模のカスタマーサポートAIエージェントの構築:評価駆動フレームワーク — evaluation methodology / context engineering / training / online measurement を分離せず一体で扱うフレームワーク。production agent の実務知見。(arxiv, cs.CL)
- Instruction Hierarchy が壊れる箇所 — 推論モデルの failure 診断と修復 — 異なるソースからの命令が衝突した時の優先度遵守を end-to-end でなく failure mode 分解して測る。prompt injection / 多階層命令の研究軸。(arxiv, cs.AI)
- Microsoft の OSS ツールが侵害され、AI開発者のパスワードを盗む — Azure 周りや Claude Code / Gemini CLI / VS Code で使われる開発者向けツール70+リポを Microsoft が GitHub から一時無効化。Durable Task の “再侵害” 疑いも。AI開発を標的にした supply chain attack の事例。(hackernews, 509pt)
★ 雑学
- Karpathy: “Free your mind” — Fable 5 で Jevons paradox が起きる — 動くソフトが蛇口から出てくる時代になり、自分のソフトウェア需要が大幅に増えた、と Karpathy が Fable 5 についてコメント。bespoke single-use apps / 10X test suite / auto-optimize / カスタムHTML研究プロジェクトを名指し。(simon-willison)
メタ情報
- 候補総数: 554(Reddit 失敗を除く)
- 採択: ★★★ 6 / ★★ 7 / ★ 1
- 失敗ソース: reddit(環境ネットワークポリシーで old.reddit.com / www.reddit.com / api.reddit.com いずれも HTML/blocked 応答、JSON取得不可)
- 除外理由の傾向: arXiv の医療画像・自動運転・センサー融合系を多数除外。HN 上の
FCC kill burner phones/iPhone Last Stand/Vision Pro/Let's Encrypt等は除外領域(政治・端末ニュース)。
⬆ AI Trends へ戻る