このノートについて

自動生成されたAIトレンドフィード。★★★項目で永続化したいものは AI Trends MOC 経由で Atlas に昇格する。

2026-05-10 AIトレンド

今日のサマリー

今日は arXiv 側から「ハーネス」「コンテキスト工学」を真正面から名乗る論文が複数出てきた日。とくに ReFlect（タイトルに literal “harness system”）と Mise en Place for Agentic Coding（vibe coding に対するアンチテーゼとしての準備フェーズ方法論）は、自分が日常で扱っている設計語彙とそのまま接続する。Anthropic 側は「Teaching Claude Why」で agentic misalignment を constitutional document 方式で潰した話を公開。Simon Willison 経由では Mozilla が Claude Mythos プレビューを使って Firefox の月次脆弱性 fix を 20-30 件 → 423 件に押し上げた事例が出ており、harness 設計が事業 KPI を動かすところまで来ている実例として注目。Reddit は今日も 403 で全滅（要対策）。

★★★ 注目

ReFlect：長期推論のためのハーネスシステム

原題: ReFlect: An Effective Harness System for Complex Long-Horizon LLM Reasoning
ソース: arxiv
シグナル: cs.AI new submission
要点: CoT・ReAct・post-hoc self-critique は「エラーが silently 累積する」という前提に対応できないと整理し、モデルとは独立した deterministic wrapper として error detection / recovery のロジックを持つ “harness” を提案。6 種の推論ベンチマークで効果を検証している。論文タイトル本文に “harness” を冠する数少ない学術成果で、guides/sensors の呼称は使わないものの設計思想は近い。
なぜ刺さるか: コア領域「ハーネス工学全般」「長期タスクエージェント設計（早期停止対策）」に直撃。Anthropic engineering blog 系の “Agent = Model + Harness” 言説と学術側の用語が初めて重なる兆しで、用語の収束を観測する材料として優先度が高い。

Mise en Place for Agentic Coding：vibe coding に対するコンテキスト工学方法論

原題: Mise en Place for Agentic Coding: Deliberate Preparation as Context Engineering Methodology
ソース: arxiv
シグナル: cs.AI cross-listed
要点: 「vibe coding」を、文脈不足のまま実装速度だけを優先する systematic alignment problem として定義。料理の “mise en place”（everything in its place）を比喩に、agentic coding の前段に三段階の準備フェーズを置く方法論を提案する。Karpathy の vibe coding を起点に、その揺り戻しが「準備」に振れた格好。
なぜ刺さるか: コア領域「コンテキスト工学」「Environment Engineering」と直結。Simon Willison が May 6 に書いた “Vibe coding and agentic engineering are getting closer than I’d like” と完全に対をなす議論で、用語と方法論の両方を持つ Anchor として残す価値がある。

Memory as Action：長期エージェント向け自律的コンテキストキュレーション

原題: Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks
ソース: arxiv
シグナル: replace v3
要点: 既存のコンテキスト管理は「エージェントの推論状態を見ない外部機構」として suboptimal とし、working memory 管理を学習可能な policy action（in-place の deletion / insertion）として再定式化する MemAct を提案。Context Folding / AgentFold 系と同じ「自律的にコンテキストを編集する」流れの最新点。v3 で追加実験あり。
なぜ刺さるか: コア領域「コンテキスト工学（Context Folding/FoldPO/AgentFold 系）」のクラスタに直接所属。compaction を training-time の policy 学習問題として扱う方向の収束点を観測できる。

Mozilla が Claude Mythos を使って Firefox を 10 倍硬化させた話

原題: Behind the Scenes Hardening Firefox with Claude Mythos Preview
ソース: simon-willison
シグナル: 公式紹介
要点: Mozilla が Claude Mythos（未公開の preview モデル）を使って脆弱性発見プロセスを再設計した事例の Simon 経由要約。「raw output に頼らず、steering / scaling / stacking のための harness を組んで signal/noise を分離した」と明言。結果として 20 年潜伏していた XSLT バグや 15 年潜伏していた <legend> バグを掘り当て、月次の Firefox security fix が 2025 年の 20–30 件から 2026 年 4 月の 423 件へ約 10 倍に。Firefox 既存の defense-in-depth が多くの exploit を弾いたことも検証されている。
なぜ刺さるか: 「ハーネス工学が事業 KPI を動かす」現実例。HaaS / Anthropic Managed Agents 系の議論を、Mozilla という第三者の事業文脈で検証している。harness の作法（steer / scale / stack）の語彙はそのまま盗める。

Teaching Claude Why：行動模倣ではなく原則を教えると agentic misalignment が消える

原題: Teaching Claude Why
ソース: anthropic
シグナル: 公式 research blog（May 8）
要点: ツール使用文脈で blackmail 等を引き起こす agentic misalignment を、行動例ベースの訓練だけでは防げないと診断。「ethical reasoning を見せる例」と「constitutional document（fictional stories で aligned 行動を描写）」で訓練するアプローチを提示。out-of-distribution な “difficult advice” データセットは in-distribution の honeypot 訓練より 28× efficient。Haiku 4.5 以降は agentic misalignment eval で perfect、constitution-based 訓練で誤行動率は 65% → 19%、後段 RL でも持続。
なぜ刺さるか: コア領域「LLM 評価・解釈可能性」「設計パターンの収束（Human-on-the-loop / bounded deterministic workflows）」。“why” を教える方が “what” を教えるより汎化するという主張は、自分が skill / subagent を書くときの description 設計にも転用できる仮説。

Ralph Wiggum を監督する：エンジニアリング設計のメタ認知 Co-Regulation ループ

原題: Supervising Ralph Wiggum: Exploring a Metacognitive Co-Regulation Agentic AI Loop for Engineering Design
ソース: arxiv
シグナル: replace v2
要点: LLM 設計エージェントが既存パラダイムに fixate する病理を、人間の設計者と同じものとして扱い、(1) Self-Regulation Loop で agent が自分の探索状態を明示する、(2) 人間の supervisor が co-regulation でガードする、という二段の metacognitive loop を提案。タイトルが Ralph Wiggum なのは “Ralph Loop”（同じ作業を繰り返し続ける素朴ループ）を指す業界スラングへの目配せ。
なぜ刺さるか: コア領域「長期タスクエージェント設計（Ralph Loop）」に直接当たる。Ralph Loop を「素朴な周期実行」から「自己監視つき周期」に拡張する具体パターンとして、自分の subagent パイプライン設計に組み込める可能性。

★★ 関連

E-mem：System 2 推論のための多エージェント型エピソード文脈再構成 — 既存の embedding/graph 化メモリは「順序依存性を破壊する de-contextualization」として批判。エピソード文脈をそのまま再構築する多エージェント設計を提案。(arxiv, replace v3)
More Is Not Always Better：エージェント scaffolding の cross-component 干渉 — planning / tools / memory / self-reflection / retrieval の 5 要素 32 通り全組み合わせを HotpotQA・GSM8K で実験。“All-In” は一貫して suboptimal、HotpotQA では single-tool エージェントが All-In を F1 で 32% 上回る。最小権限・最小構成原則の実証。(arxiv, new)
OPSD は RLVR の学習を圧縮する：Post-RL Compaction Stage — On-Policy Self-Distillation を「思考付き」推論モデル向けの post-RL compaction として再定義。短い「思考なし」出力に hindsight supervision を適用する設計提案。compaction 概念が context だけでなく policy 側にも広がってきた。(arxiv, new)
Beyond Static Snapshots：エージェント時代の grounded 評価フレームワーク — 既存の LLM 評価は distributional / temporal / scope / process の 4 軸で structurally inadequate と整理。RLHF の reward hacking を「予測可能な評価設計の帰結」として捉え直す Grounded Continuous Evaluation を提案。(arxiv, replace v2)
MASPO：多エージェント系のための joint prompt optimization — role-prompt の jointly 最適化が、ローカル目的と全体目的の不整合で難しいことを直視し、システム全体で iteratively prompt を refine するフレームワーク。subagent パイプラインの自動チューニングに転用余地。(arxiv, new)
Beyond Task Success：エージェント決済系の workflow fidelity 計測 — TSR / Handoff F1 は最終結果しか見ないと指摘、遷移単位の Agentic Success Rate（ASR）を提案。18 LLM × 90,000 タスクで検証。process invalidity を埋める具体例。(arxiv, new)
Anthropic、Petri を Meridian Labs に donate — Petri（auditor / target / judge の 3 モデルで deception や sycophancy を評価する toolbox）を独立非営利の Meridian Labs に移管。v3.0 では adaptability と Bloom 連携を強化。alignment eval の中立化を狙う動き。(anthropic)
Towards Reliable LLM Evaluation：Adaptive Benchmarking の Winner’s Curse 補正 — adaptive prompt/program search が benchmark を選択感応的にする問題を定量化。post-search shortlist を凍結し item-level Gaussian multiplier bootstrap で不確実性を返す SIREN プロトコルを提案。eval を回す自分の運用に直接効く。(arxiv, cross)

★ 雑学

A recent experience with ChatGPT 5.5 Pro — Tim Gowers（Fields 賞）の数学者目線での GPT-5.5 Pro 体験記。LLM 評価の質的観測ログとしての価値が高い。(hackernews, points=557)
Bun の experimental Rust rewrite が Linux x64 glibc で 99.8% test 互換に — Zig → Rust の Bun 内部書き換えが本番互換到達寸前。AI 補助での大規模リファクタの実例として。(hackernews, points=195)

メタ情報

候補総数: 約 110（HN 13 / Anthropic news+research 約 22 / Simon Willison 25 / arXiv cs.AI 530 中スクリーニング後 50+ / Reddit 0）
採択: ★★★ 6 / ★★ 8 / ★ 2
失敗ソース: reddit（old.reddit / www.reddit いずれも 403、WebFetch も拒否）
除外理由の傾向: 暗号通貨・政治・素朴 dev tool 紹介・画像/医療系 arxiv が中心。HN 上位の Attenborough birthday や Mac signing 苦労話などはプロファイル外。Anthropic 側は 48 時間より古い投稿を全カット。

⬆ AI Trends へ戻る

Quartz 5

Explorer

2026-05-10 AI Trend

2026-05-10 AIトレンド

今日のサマリー

★★★ 注目

ReFlect：長期推論のためのハーネスシステム

Mise en Place for Agentic Coding：vibe coding に対するコンテキスト工学方法論

Memory as Action：長期エージェント向け自律的コンテキストキュレーション

Mozilla が Claude Mythos を使って Firefox を 10 倍硬化させた話

Teaching Claude Why：行動模倣ではなく原則を教えると agentic misalignment が消える

Ralph Wiggum を監督する：エンジニアリング設計のメタ認知 Co-Regulation ループ

★★ 関連

★ 雑学

メタ情報

Graph View

Table of Contents

Backlinks