このノートについて

自動生成されたAIトレンドフィード。★★★項目で永続化したいものは AI Trends MOC 経由で Atlas に昇格する。

2026-05-18 AIトレンド

今日のサマリー

今日の主軸は「ハーネスの基礎部品が露わになった日」。Anthropic Best Practices に書かれた /btw /rewind 系の中間ツール、Generator-Evaluator harness の再現実験、そして「agent には autonomy より rollback が要る」という ACID 系論点 — 3本ともコンテキスト管理と失敗時のリカバリを別レイヤとして切り出す方向の議論。点が線になっている。
ハードウェア側では Anthropic Mythos Preview が macOS M5 で MIE を5日で抜いた件が話題(長期タスクエージェントの実戦投入例)。Deepseek V4 1M の上限テストも、300kあたりで recall が崩れる挙動が出ていて long-context vs structured-memory の決着がまた一歩。arXiv は土日 skipDays で空、Anthropic も48h窓内に新規記事なし。

★★★ 注目

Anthropic、/clear と /compact の間にコンテキストツールを4つ出していた

  • 原題: Anthropic shipped 4 context tools between /clear and /compact. Here’s when each one wins
  • ソース: reddit/ClaudeAI
  • シグナル: 投稿日 2026-05-17、Best Practices doc 由来の整理
  • 要点: 多くの人が /clear(全消し)か /compact(全要約)の2極で運用しているが、Anthropic 公式は実は 4つの中間ツールを持っている、という整理。/btw は答えが overlay で出て会話履歴に入らない(“side tab” 的な質問用、コンテキスト消費ゼロ)。/rewind には “Summarize from here” と “Summarize up to here” の双方向があり、前者は失敗デバッグだけ畳む、後者はセットアップを捨てて最近の状態を残す。/compact の全圧縮との違いは「外科的か棒切りか」。残り2つはスレッドで言及される /fork(コンテキスト分岐)と細粒度 /forget 系。
  • なぜ刺さるか: コンテキスト工学のコア領域に直撃。compaction を「単一のbutton」として扱うのをやめて、保存・分岐・部分要約・退避 を別々の道具として扱う設計思想。subagent でやってきた context isolation を、シングルセッション内に持ち込む方向 — Ralph Loop のメモリ層と並べて読むと面白い。CLAUDE.md の skill / hook 設計にも転用余地あり。

AnthropicのGenerator-Evaluatorハーネスを再現、12回の対立的反復でwebサイトを生成した記録

  • 原題: I replicated Anthropic’s Generator-Evaluator harness to build a website through 12 adversarial AI iterations
  • ソース: reddit/ClaudeAI
  • シグナル: 投稿日 2026-05-16、Kiro CLI + Playwright MCP 構成の実装記
  • 要点: Anthropic が公開した Generator-Evaluator(GAN 的な長時間ハーネス)を Kiro CLI で再現。Planner → Generator ↔ Evaluator の3エージェント構成で、各エージェントは別CLIプロセス・共有context ゼロ・ファイル経由(spec.md / eval-report.md)でのみ通信。Evaluator は Playwright で実サイトをブラウズ(コードレビューだけでは見えない視覚バグを捕まえる)。Iteration 1〜3 は凡庸、4 で “Terminal Noir”(Plex Mono + amber on black + scanline)に振り切る創造的飛躍が起きた。12 ラウンドを retry-on-failure ではなく必ず全部走らせるのがポイント。
  • なぜ刺さるか: subagent パイプラインの「context isolation × tool restriction × handoff via files」の典型例。Anthropic の generic-AI-pattern penalty skill が functional bias を破る装置として効いている点も興味深い — 評価関数を skill 経由で形に出来るという証拠。Ralph Loop / first-draft パターンの “全周回走らせる” 思想とも整合的。

AIエージェントには autonomy より rollback が必要だ

  • 原題: AI Agents Need Rollback More Than They Need Autonomy
  • ソース: reddit/ClaudeAI
  • シグナル: 投稿日 2026-05-17、ACID/sagas を agent stack に持ち込む論考
  • 要点: 5回 tool call して3回目で失敗したエージェントは、ユーザーが意図した状態でも実行前状態でもない「中途半端な状態」に着地する。現状のパターンは「LLM に figure it out させる→loop が終わったら ‘task complete’ とログる」だが、これは reversible で隔離された環境でしか成立しない。DB 業界は50年前から ACID / saga / compensating action / idempotency key / 2PC / write-ahead log という語彙を持っている。Agent framework にこれらが組み込まれている例をまだ見たことがない、と筆者。production の agent が file system / deploy / 課金 / DB を触る以上、トランザクション境界は必須プリミティブのはず。
  • なぜ刺さるか: コア領域「ハーネス失敗パターン」「Environment Engineering」に正面から重なる。autonomy をスケールさせる前に 失敗時の境界を環境側で定義 すべきという主張は、ハーネス工学の guides/sensors 議論に “compensating action” という第3の役柄を足す感じ。眉唾を見極めるなら「sagas は LLM の判断を含まない deterministic 系で初めて成立する」点をどう繋ぐかが鍵。

Anthropic Mythos Preview、Apple M5 macOS で MIE をたった5日で抜く

  • 原題: Anthropic’s Mythos Preview helped Calif build the first public macOS kernel exploit on Apple M5 in five days
  • ソース: reddit/ClaudeAI(一次ソース: Calif の 2026-05-14 公開記事)
  • シグナル: 投稿日 2026-05-17、Apple Park に紙で報告書を手渡し済み
  • 要点: Apple が5年かけて作った Memory Integrity Enforcement(MIE)を、Calif が Anthropic Mythos Preview と組んで 5日で抜けるエクスプロイトを組み上げた。data-only kernel local-priv-esc on macOS 26.4.1、M5 bare-metal、MIE 有効。Bruce Dang が4/25にバグ発見 → Dion Blazakis 合流4/27 → 5/1 動作確認。Calif 曰く “once it has learned how to attack a class of problems, it generalizes to nearly any problem in that class”。Mythos 本体は非公開 (“project glasswing” と HN コメント界隈で呼ばれる招待制)、技術詳細は Apple のパッチ後に出る予定。
  • なぜ刺さるか: 長期タスクエージェント設計のリアル投入例として最強クラス。Bug class を学習させると別ハードウェアにも転用するという generalization の主張は、harness が学習対象になっているという意味で「ハーネスが推論側資産になる」現象。METR 系の能力トラッキング、HaaS、Anthropic Managed Agents 全部と接続する材料。

Deepseek V4 の 1M コンテキスト、実コードベースで叩いたら 300k で壊れた

  • 原題: Deepseek V4’s 1M context window: the breaking point
  • ソース: reddit/LocalLLaMA
  • シグナル: 投稿日 2026-05-17、3つの実コードベース(45k / 180k / 520k)で検証
  • 要点: 45k では8ファイル跨ぎの関数呼び出しが正確。180k でも14ファイル跨ぎのリファクタが破綻しない。300k 超で精度劣化: 400k トークン前で定義した関数の正確行番号を聞くと「around line 230」と返ってきて実際は 247。520k では architectural summary に逃げて実装詳細を抜かす。max reasoning mode の TTFA(time-to-first-answer)が約120秒、対話性は事実上死ぬ。aa-omniscience では unknown-answer タスクで94% hallucination、存在しない utility 関数を堂々と参照。
  • なぜ刺さるか: 長文コンテキスト vs RAG / external memory の議論を「1M context は使い物になる」陣営の最新主張で検証したサンプル。コンテキスト窓の拡張で context rot は消えていないことの実測 — δ-mem や Context Folding 系が外部 state を持つ動機がここに残る。Ralph Loop 的に “180k 以下に保つ” を運用ルールにできるかが現実解の境界。

Obsidian を任意のエージェントAIの記憶レイヤーに使う “LLM Wiki”

  • 原題: How To Build LLM Wiki? An Obsidian Memory Layer For Any Agentic AI
  • ソース: reddit/ObsidianMD
  • シグナル: 投稿日 2026-05-17、r/ObsidianMD で拡散中
  • 要点: Obsidian vault を「複数エージェント間で共有可能なドキュメント型メモリ」として再フレーミングするチュートリアル系投稿。タイトルの “for Any Agentic AI” がポイント — vendor-specific な memory API ではなく Markdown + wikilink で平等にアクセスできる long-term store を作る発想(RSS本文が極端に短かったので詳細はリンク参照が必要)。
  • なぜ刺さるか: コア領域「PKM × LLM」「Obsidian × AI」「個人用 RAG」に直撃。Ideaverse の x/Feeds 構造はまさにこのパターンの先駆けで、「自動収集と能動キュレーションを分ける」「MOC を起点に昇格する」という現行運用と接続する。一次ソースは別途読んで Atlas/Dots/Things 候補にしたい。

★★ 関連

★ 雑学

メタ情報

  • 候補総数: 80(重複排除後)
  • 採択: ★★★ 6 / ★★ 9 / ★ 2
  • 失敗ソース: arXiv(cs.AI/cs.CL/cs.LG とも RSS が skipDays で空、土日のため)、Anthropic(48h窓内に新規記事なし)
  • 除外理由の傾向: Obsidian プラグイン雑談・運用相談(10件以上)、llama.cpp MTP の Qwen3.6 派生テスト群(7件、5/15 ぶんと重複)、UK VPN規制・Tesla Solar Roof・voltmeter clock 等の non-AI HN記事

AI Trends へ戻る