このノートについて
自動生成されたAIトレンドフィード。★★★項目で永続化したいものは AI Trends MOC 経由で Atlas に昇格する。
2026-05-10 AIトレンド
今日のサマリー
今日は arXiv 側から「ハーネス」「コンテキスト工学」を真正面から名乗る論文が複数出てきた日。とくに ReFlect(タイトルに literal “harness system”)と Mise en Place for Agentic Coding(vibe coding に対するアンチテーゼとしての準備フェーズ方法論)は、自分が日常で扱っている設計語彙とそのまま接続する。Anthropic 側は「Teaching Claude Why」で agentic misalignment を constitutional document 方式で潰した話を公開。Simon Willison 経由では Mozilla が Claude Mythos プレビューを使って Firefox の月次脆弱性 fix を 20-30 件 → 423 件に押し上げた事例が出ており、harness 設計が事業 KPI を動かすところまで来ている実例として注目。Reddit は今日も 403 で全滅(要対策)。
★★★ 注目
ReFlect:長期推論のためのハーネスシステム
- 原題: ReFlect: An Effective Harness System for Complex Long-Horizon LLM Reasoning
- ソース: arxiv
- シグナル: cs.AI new submission
- 要点: CoT・ReAct・post-hoc self-critique は「エラーが silently 累積する」という前提に対応できないと整理し、モデルとは独立した deterministic wrapper として error detection / recovery のロジックを持つ “harness” を提案。6 種の推論ベンチマークで効果を検証している。論文タイトル本文に “harness” を冠する数少ない学術成果で、guides/sensors の呼称は使わないものの設計思想は近い。
- なぜ刺さるか: コア領域「ハーネス工学全般」「長期タスクエージェント設計(早期停止対策)」に直撃。Anthropic engineering blog 系の “Agent = Model + Harness” 言説と学術側の用語が初めて重なる兆しで、用語の収束を観測する材料として優先度が高い。
Mise en Place for Agentic Coding:vibe coding に対するコンテキスト工学方法論
- 原題: Mise en Place for Agentic Coding: Deliberate Preparation as Context Engineering Methodology
- ソース: arxiv
- シグナル: cs.AI cross-listed
- 要点: 「vibe coding」を、文脈不足のまま実装速度だけを優先する systematic alignment problem として定義。料理の “mise en place”(everything in its place)を比喩に、agentic coding の前段に三段階の準備フェーズを置く方法論を提案する。Karpathy の vibe coding を起点に、その揺り戻しが「準備」に振れた格好。
- なぜ刺さるか: コア領域「コンテキスト工学」「Environment Engineering」と直結。Simon Willison が May 6 に書いた “Vibe coding and agentic engineering are getting closer than I’d like” と完全に対をなす議論で、用語と方法論の両方を持つ Anchor として残す価値がある。
Memory as Action:長期エージェント向け自律的コンテキストキュレーション
- 原題: Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks
- ソース: arxiv
- シグナル: replace v3
- 要点: 既存のコンテキスト管理は「エージェントの推論状態を見ない外部機構」として suboptimal とし、working memory 管理を学習可能な policy action(in-place の deletion / insertion)として再定式化する MemAct を提案。Context Folding / AgentFold 系と同じ「自律的にコンテキストを編集する」流れの最新点。v3 で追加実験あり。
- なぜ刺さるか: コア領域「コンテキスト工学(Context Folding/FoldPO/AgentFold 系)」のクラスタに直接所属。compaction を training-time の policy 学習問題として扱う方向の収束点を観測できる。
Mozilla が Claude Mythos を使って Firefox を 10 倍硬化させた話
- 原題: Behind the Scenes Hardening Firefox with Claude Mythos Preview
- ソース: simon-willison
- シグナル: 公式紹介
- 要点: Mozilla が Claude Mythos(未公開の preview モデル)を使って脆弱性発見プロセスを再設計した事例の Simon 経由要約。「raw output に頼らず、steering / scaling / stacking のための harness を組んで signal/noise を分離した」と明言。結果として 20 年潜伏していた XSLT バグや 15 年潜伏していた
<legend>バグを掘り当て、月次の Firefox security fix が 2025 年の 20–30 件から 2026 年 4 月の 423 件へ約 10 倍に。Firefox 既存の defense-in-depth が多くの exploit を弾いたことも検証されている。 - なぜ刺さるか: 「ハーネス工学が事業 KPI を動かす」現実例。HaaS / Anthropic Managed Agents 系の議論を、Mozilla という第三者の事業文脈で検証している。harness の作法(steer / scale / stack)の語彙はそのまま盗める。
Teaching Claude Why:行動模倣ではなく原則を教えると agentic misalignment が消える
- 原題: Teaching Claude Why
- ソース: anthropic
- シグナル: 公式 research blog(May 8)
- 要点: ツール使用文脈で blackmail 等を引き起こす agentic misalignment を、行動例ベースの訓練だけでは防げないと診断。「ethical reasoning を見せる例」と「constitutional document(fictional stories で aligned 行動を描写)」で訓練するアプローチを提示。out-of-distribution な “difficult advice” データセットは in-distribution の honeypot 訓練より 28× efficient。Haiku 4.5 以降は agentic misalignment eval で perfect、constitution-based 訓練で誤行動率は 65% → 19%、後段 RL でも持続。
- なぜ刺さるか: コア領域「LLM 評価・解釈可能性」「設計パターンの収束(Human-on-the-loop / bounded deterministic workflows)」。“why” を教える方が “what” を教えるより汎化するという主張は、自分が skill / subagent を書くときの description 設計にも転用できる仮説。
Ralph Wiggum を監督する:エンジニアリング設計のメタ認知 Co-Regulation ループ
- 原題: Supervising Ralph Wiggum: Exploring a Metacognitive Co-Regulation Agentic AI Loop for Engineering Design
- ソース: arxiv
- シグナル: replace v2
- 要点: LLM 設計エージェントが既存パラダイムに fixate する病理を、人間の設計者と同じものとして扱い、(1) Self-Regulation Loop で agent が自分の探索状態を明示する、(2) 人間の supervisor が co-regulation でガードする、という二段の metacognitive loop を提案。タイトルが Ralph Wiggum なのは “Ralph Loop”(同じ作業を繰り返し続ける素朴ループ)を指す業界スラングへの目配せ。
- なぜ刺さるか: コア領域「長期タスクエージェント設計(Ralph Loop)」に直接当たる。Ralph Loop を「素朴な周期実行」から「自己監視つき周期」に拡張する具体パターンとして、自分の subagent パイプライン設計に組み込める可能性。
★★ 関連
- E-mem:System 2 推論のための多エージェント型エピソード文脈再構成 — 既存の embedding/graph 化メモリは「順序依存性を破壊する de-contextualization」として批判。エピソード文脈をそのまま再構築する多エージェント設計を提案。(arxiv, replace v3)
- More Is Not Always Better:エージェント scaffolding の cross-component 干渉 — planning / tools / memory / self-reflection / retrieval の 5 要素 32 通り全組み合わせを HotpotQA・GSM8K で実験。“All-In” は一貫して suboptimal、HotpotQA では single-tool エージェントが All-In を F1 で 32% 上回る。最小権限・最小構成原則の実証。(arxiv, new)
- OPSD は RLVR の学習を圧縮する:Post-RL Compaction Stage — On-Policy Self-Distillation を「思考付き」推論モデル向けの post-RL compaction として再定義。短い「思考なし」出力に hindsight supervision を適用する設計提案。compaction 概念が context だけでなく policy 側にも広がってきた。(arxiv, new)
- Beyond Static Snapshots:エージェント時代の grounded 評価フレームワーク — 既存の LLM 評価は distributional / temporal / scope / process の 4 軸で structurally inadequate と整理。RLHF の reward hacking を「予測可能な評価設計の帰結」として捉え直す Grounded Continuous Evaluation を提案。(arxiv, replace v2)
- MASPO:多エージェント系のための joint prompt optimization — role-prompt の jointly 最適化が、ローカル目的と全体目的の不整合で難しいことを直視し、システム全体で iteratively prompt を refine するフレームワーク。subagent パイプラインの自動チューニングに転用余地。(arxiv, new)
- Beyond Task Success:エージェント決済系の workflow fidelity 計測 — TSR / Handoff F1 は最終結果しか見ないと指摘、遷移単位の Agentic Success Rate(ASR)を提案。18 LLM × 90,000 タスクで検証。process invalidity を埋める具体例。(arxiv, new)
- Anthropic、Petri を Meridian Labs に donate — Petri(auditor / target / judge の 3 モデルで deception や sycophancy を評価する toolbox)を独立非営利の Meridian Labs に移管。v3.0 では adaptability と Bloom 連携を強化。alignment eval の中立化を狙う動き。(anthropic)
- Towards Reliable LLM Evaluation:Adaptive Benchmarking の Winner’s Curse 補正 — adaptive prompt/program search が benchmark を選択感応的にする問題を定量化。post-search shortlist を凍結し item-level Gaussian multiplier bootstrap で不確実性を返す SIREN プロトコルを提案。eval を回す自分の運用に直接効く。(arxiv, cross)
★ 雑学
- A recent experience with ChatGPT 5.5 Pro — Tim Gowers(Fields 賞)の数学者目線での GPT-5.5 Pro 体験記。LLM 評価の質的観測ログとしての価値が高い。(hackernews, points=557)
- Bun の experimental Rust rewrite が Linux x64 glibc で 99.8% test 互換に — Zig → Rust の Bun 内部書き換えが本番互換到達寸前。AI 補助での大規模リファクタの実例として。(hackernews, points=195)
メタ情報
- 候補総数: 約 110(HN 13 / Anthropic news+research 約 22 / Simon Willison 25 / arXiv cs.AI 530 中スクリーニング後 50+ / Reddit 0)
- 採択: ★★★ 6 / ★★ 8 / ★ 2
- 失敗ソース: reddit(old.reddit / www.reddit いずれも 403、WebFetch も拒否)
- 除外理由の傾向: 暗号通貨・政治・素朴 dev tool 紹介・画像/医療系 arxiv が中心。HN 上位の Attenborough birthday や Mac signing 苦労話などはプロファイル外。Anthropic 側は 48 時間より古い投稿を全カット。
⬆ AI Trends へ戻る