このノートについて

自動生成されたAIトレンドフィード。★★★項目で永続化したいものは AI Trends MOC 経由で Atlas に昇格する。

2026-05-09 AIトレンド

今日のサマリー

今日のテーマは「ハーネス側の進化が成果として可視化されはじめた日」。Mozilla が Claude Mythos Preview を使って Firefox セキュリティバグの月間修正数を 20-30件 → 423件に押し上げ、その差分は「モデルだけでなくハーネスを stack/scale/filter した」点にあると当事者自身が明言した。Simon Willison は「Markdown ではなく HTML を出力させる」という小粒な環境工学が説明品質を変えた、と書く。arXiv からは「モデル単体評価では deployment-relevant alignment は推論できない」(2605.04454) という、評価単位を model→system に押し上げる論文が出ており、これも同じ方向の流れ。Anthropic 公式 RSS は今日 404 で死亡しているが、副産物として Mozilla 記事と r/ClaudeAI の「Mythos」言及から、未発表の Claude 新モデル名がリークしている。Reddit は old.reddit が完全 block されたため .rss endpoint への切替が必要だった。

★★★ 注目

Firefox を Claude Mythos Preview でハーデニングした舞台裏

原題: Behind the Scenes Hardening Firefox with Claude Mythos Preview
ソース: simon-willison（経由 Mozilla Hacks 公式）
シグナル: Lobste.rs 経由、Simon Willison がトップ取り上げ
要点: Mozilla が Claude Mythos Preview を使って Firefox の脆弱性発見・修正を大量にスケールさせた事例。2025年通期の月平均は 20〜30件だったセキュリティバグ修正が、2026年4月単月で 423件まで跳ね上がった。Mozilla 自身は「モデルが強くなっただけでなく、ハーネス（モデルを steering / scaling / stacking してノイズを濾す技術）を劇的に改善したのが半分の理由」と明言している。20年前の XSLT バグ、15年前の <legend> 要素のバグなど、人間が見落としていた古傷が出てくる。Firefox 既存の defense-in-depth がハーネスの大半を弾いているという事実も付記されており、両側の改善が必要、というメッセージにもなっている。
なぜ刺さるか: コア領域「ハーネス工学全般」「Subagent パイプライン」のリアルな成功事例。“Agent = Model + Harness” の体系が、定性的な議論ではなく月次バグ修正数というハードな KPI で観測された点が新しい。Anthropic Managed Agents の HaaS 路線の正当化材料にもなる。「Mythos」という未公開モデル名のリークも副産物として重要（後述、★★ 参照）。

Show HN: AI エージェント用の Git「re_gent」

原題: Show HN: Git for AI Agents
ソース: hackernews
シグナル: points=81, comments=43
要点: Claude Code の挙動を後追いするための VCS 風ツール。投稿者の問題意識は明快で「/compact の後で /rewind したい」「あのフォルダをどこで・なぜ消した？」「bisect で破壊変更がどのセッションで入ったか特定したい」── 通常の git だと記録できない、エージェントの内部判断と外部副作用のひも付けを取る。現状 Claude Code 専用。多くのコメントは「summary が git log の代替にならない」「context fork と組み合わせるべき」「これは Claude Code 側が /checkpoint で持つべき」など、ハーネス側の責務をどこに置くかを巡る議論。
なぜ刺さるか: コア領域「Subagent パイプライン」「コンテキスト工学」の真ん中。compaction で消える状態をどう外部記憶として残すか、という問題に対する個人開発者からの回答。同種の機能は claude-code-stash（過去に話題）や Anthropic の checkpoint 機構と被るが、re_gent は「why」のメタデータを残す点が違い。長期タスクエージェント設計の補助インフラとして観察対象。

モデル単位の評価ではデプロイのアラインメントは推論できない

原題: Deployment-Relevant Alignment Cannot Be Inferred from Model-Level Evaluation Alone
ソース: arxiv (cs.AI)
シグナル: arxiv:2605.04454v1 / Oxford系著者 (Shadbolt, Jirotka 含む)
要点: 「Truthfulness」「Instruction-following」など現行の有名アラインメントベンチマークはすべてモデル単体の固定入力スコアであり、実際にデプロイされた system の整合性とは一致しない、という主張。16ベンチマークを 8次元のルーブリックで dual-coder 監査（Cohen’s κ=0.87）した結果、user-facing verification support を測定しているベンチは皆無、process steerability も実質ゼロ。さらに同じ verification scaffold が、モデル A では完璧だがモデル B では効果ゼロという「scaffold efficacy is model-dependent」現象を 180トランスクリプトの cross-model stress test で確認。提案：単一スコアではなく「アラインメント・プロファイル」、固定 scaffolding プロトコル、評価エビデンスとデプロイ主張の inferential distance を明示するレポート様式。
なぜ刺さるか: コア領域「LLM 評価・解釈可能性」「ハーネス工学全般」の交差点。HAL や Meta-Harness 系と同じ流れで、「評価対象の単位を model から system / harness に押し上げろ」という主張。ハーネス設計者にとっては、これまで漠然と感じていた「ベンチで強いモデルが本番でグダる」現象に実証的な裏付けが出てきた格好。Align Evals 系と並べて読みたい。

Claude Code を使うとき、HTML は Markdown より「不合理に効く」

原題: Using Claude Code: The Unreasonable Effectiveness of HTML
ソース: simon-willison（原典は Anthropic Claude Code チームの Thariq Shihipar）
シグナル: Simon Willison が引用しつつ自身の検証を追加
要点: Claude に出力させる形式を Markdown から HTML に変えると、回答品質と可読性が体感で上がるという主張。HTML だと SVG ダイアグラム、インタラクティブなウィジェット、in-page navigation を勝手に組み込んでくる。GPT-4 時代（8K context）では Markdown のトークン効率が正義だったが、長コンテキストになった今は逆に HTML のリッチさが効く。提案プロンプト例：「この PR をレビューする HTML アーティファクトを作って。streaming/backpressure に詳しくないからそこを重点的に、diff をインライン余白アノテーション付きでレンダリングして、severity で色分けして」。Simon は実際に copy.fail の悪用コード解説に試して上手くいったと検証。
なぜ刺さるか: コア領域「Environment Engineering」（API/コードベースを AI-legible に再設計するの逆方向、つまり出力形式を AI-friendly に再設計する）の好例。Skill 設計でいう「response format をどう指定するか」のレベル感を変える話。Obsidian 内で artifact を渡される形式を Markdown 一辺倒で考えていたが、HTML embed や iframe を許容するなら別の設計が成り立つ、という示唆。

★★ 関連

Claude Mythos Preview という未公開モデル名のリーク — Mozilla の上記記事と r/ClaudeAI の「Haiku/Sonnet/Opus/Mythos の語源」スレッドから、Anthropic 内部で「Claude Mythos」という新ライン（ナンバリング上は Opus 4.7 の上？）の preview が動いていることが透けて見える。公式アナウンス前の状態。(reddit, ClaudeAI)
AI is breaking two vulnerability cultures — オープンソースの脆弱性報告と内部セキュリティチームのワークフローが、AI による低コスト報告で同時に壊れつつあるという論考。Mozilla 事例（★★★）と表裏一体で読むと味が濃い。(hackernews, points=119)
I tried implementing AI Agents Like Distributed Systems — マルチエージェントを sourcing/idempotency/circuit breaker など分散システム概念で再設計した事例。“Supervisor pattern” や bounded deterministic workflows と概念が地続き。(reddit, LangChain)
I built a tool that measures where AI agents lose context between steps — 「context rot」をステップ単位で計測しようとするツール。コンテキスト工学の評価インフラ側。実装の質はまだ怪しいが問題設定は的確。(reddit, LangChain)
Sparse Prefix Caching for Hybrid and Recurrent LLM Serving — SSM/recurrent モデルの中間状態を sparse な checkpoint として保存し、prefix一致時はそこから resume + suffix 再計算で済ませる方式。dense KV cache とは別の Pareto を提案。長文コンテキスト・メモリ領域。(arxiv, cs.LG)
Internalizing Outcome Supervision into Process Supervision — 強化学習 for reasoning を「outcome supervision を process supervision に内部化する問題」と再定式化。失敗 trajectory の自己修正で process-level 信号を作り出す。外部 process reward model なしで credit assignment できるという主張。(arxiv, cs.LG)
Adaptive Computation Depth via Learned Token Routing in Transformers — トークンごとに「次の層に進むか飛ばすか」を学習する 1.7% パラメータ追加の gate。depth pressure をかけなくても task loss だけで 20% の token-layer ops を削減するというのが面白い。簡単/難しいの自動振り分けが内発的に出る。(arxiv, cs.LG)
Agent Island: 多人数ゲームから生まれる飽和・汚染耐性ベンチマーク — LLM エージェントが協力・対立・説得しあう多人数ゲームで Bayesian Plackett-Luce ランキング。49モデル 999ゲームで gpt-5.5 が圧勝、同プロバイダ最終投票バイアスを 8.3pp 検出。Meta-Harness 系評価の派生。(arxiv, cs.AI)

★ 雑学

Multi-Token Prediction (MTP) for LLaMA.cpp - Gemma 4 で 40% 高速化 — DeepSeek 4 / Gemma 4 が MTP を組み込んでおり、llama.cpp 側の対応で生成が大幅に速くなる、という実装報告。(reddit, LocalLLaMA)

メタ情報

候補総数: 約 70件 (HN 18 / SW 7 / arXiv 約 35 / Reddit 約 60 / Anthropic 0)
採択: ★★★ 4 / ★★ 8 / ★ 1
失敗ソース: anthropic（公式ブログ RSS が 404、/news/rss.xml が機能していない）、reddit old.reddit.com JSON（ネットワーク policy で block、.rss に切替して回避）
除外理由の傾向: HN は AI 非関連の上位記事が多数（Canvas breach、Poland経済、Mojo 1.0、UFO、Apple-Intel、UUID v4 collision など計 13件除外）。Reddit ClaudeAI/LocalLLaMA の memes、product complaints、generic tutorial 系を除外（計約 20件）。arXiv は医療/ロボティクス/物理応用や評価指標の直接ヒット以外を除外（計約 25件）。

⬆ AI Trends へ戻る

Quartz 5

Explorer

2026-05-09 AI Trend

2026-05-09 AIトレンド

今日のサマリー

★★★ 注目

Firefox を Claude Mythos Preview でハーデニングした舞台裏

Show HN: AI エージェント用の Git「re_gent」

モデル単位の評価ではデプロイのアラインメントは推論できない

Claude Code を使うとき、HTML は Markdown より「不合理に効く」

★★ 関連

★ 雑学

メタ情報

Graph View

Table of Contents

Backlinks