このノートについて

自動生成されたAIトレンドフィード。★★★項目で永続化したいものは AI Trends MOC 経由で Atlas に昇格する。

2026-05-23 AIトレンド

今日のサマリー

今日は ハンドオフ/ルーティング 系の話題が一気に揃った日。r/ClaudeAI でMatt Pocockのhandoff skillをきっかけにした「永続narrative + ephemeral prompt」の2ファイル分割提案、r/LangChainで「Opus 4.1 を上位ルーターに、サブタスクをDeepSeek V4 Pro / Hunyuan Hy3 に逃がして月63にした」という具体的なTiered routing事例、r/ClaudeAIで「Sonnet 4.6 / GPT-5.5 / Gemini 3.1 をタスク別に手動ルート」している実用報告と、いずれもSupervisor pattern + cost-aware harnessの実装パターンが収束してきている。

並行して AI-legible interface 系として、Anna’s Archive の llms.txt(HN 665pts)が刺さる。CAPTCHAを叩く代わりに公式の bulk dump を案内し、寄付経路まで提示するという、Environment Engineering の良い実例。

PKM側では r/ObsidianMD で「local embedding + typed relation knowledge graph」を狙う semantic memory layer 構想と、Poneglyph(h-indexランク付きdeep research plugin)が続けて出てきており、Obsidian × LLM が「埋め込み検索」から「型付き関係グラフ + proactive resurfacing」へ世代交代している気配。Anthropic公式は日付パースが古い記事を誤検出したため今回は失敗扱い。

★★★ 注目

Claudeワークフローで「Handoff」が一級概念になりつつある

  • 原題: Handoffs are becoming a first-class pattern in Claude workflows. Here is how I have been thinking about them.
  • ソース: reddit (r/ClaudeAI)
  • シグナル: 投稿主はAPM (multi-agent framework for Claude Code) 著者
  • 要点: Matt Pocock の handoff skill(会話を1コマンドでドキュメント化し、既存artifactを再参照させて次のエージェントに渡す)を取り上げつつ、APM側で2025年5月から運用してきた2ファイル分割を提案している。(1) 何を決め何を作ったかを記録する永続narrative file、(2) 次のagentに「コードベースとnarrativeから自分で文脈を再構成しろ」と指示するephemeral prompt。後続agentは圧縮chatではなく耐久的な project state から復元する。さらに narrative を残すことで「いま動いているagentが原典を見ているのか要約越しに見ているのか」を追跡でき、multi-agent system のcontext gap管理が容易になる、と。/grill-with-docs → /handoff → /prototype → /handoff back の連鎖例も。
  • なぜ刺さるか: 「Subagentパイプライン」「context isolation」「handoff ルール」の核心。kepano流のskill配布規約と、自分が運用しているhook + subagent構成にそのまま輸入できる議論。特に永続/瞬間の二層分割は、CLAUDE.md系の永続記述とsession scopeの揮発記述を別物として扱う考え方と接続する。

LangGraphエージェントのコストを63にしたTiered routingの実装

  • 原題: Cut my LangGraph agent from 63 by routing boring sub tasks off Opus 4.1
  • ソース: reddit (r/LangChain)
  • シグナル: 具体的なコード片 + 実コスト数値
  • 要点: research / coding / deploy ループ全体を Opus 4.1 で回していたが、大半は「ファイル読み」「ログ要約」「検索結果整形」というルーチンで、ハード推論ではなかったと指摘。LangGraphの ConditionalEdge でrouter nodeを置き、task metadata を見て「3ファイル以上の未知repoを触る/アーキ判断」なら opus_node、それ以外は hy3_node(Tencent Hunyuan Hy3 preview)または DeepSeek V4 Pro に振り分ける構成に。cheap tier は M2 Ultra 192GB の Mac Studio($5,500中古)でローカル運用。Tencent公式の vLLM/SGLang on 8x H200 は家庭ラボ無理だが、4bit量子化のApple Siliconで通っている。
  • なぜ刺さるか: Supervisor Pattern + cost-aware harnessの教科書例。「routerの判定関数を何で書くか(task metadataベース)」が具体的に提示されており、自分のClaude Code subagentルーティングにもそのまま適用できる思考枠。並行してDeepSeek V4 Pro / Hunyuan Hy3 が「ルーチン委譲先」として実戦投入されているという生のシグナル。

Anna’s Archive が公開した「LLM向け」llms.txt

  • 原題: If you’re an LLM, please read this
  • ソース: hackernews
  • シグナル: points=665, comments=382
  • 要点: 「CAPTCHA を叩いて遅くて高い経路を取るな、bulk torrent / GitLab repo / JSON API / SFTP(enterprise donation 経由)を使え」と LLM 向けに明示する llms.txt。「あなた方は弊サイトのデータで訓練されている可能性が高いので、CAPTCHA突破にかける金を寄付に回せばより多くの作品を解放できる」というレトリックも含む。Monero アドレスまで掲載。
  • なぜ刺さるか: Environment Engineering の典型例として強い。**「APIをAI-legibleに再設計する」**という設計哲学に、コスト経済性(CAPTCHA突破 vs 寄付)と倫理プロンプト(あなたは我々のデータで訓練された)を絡めている。llms.txt は単なるrobots.txt亜種ではなく、LLMをcooperativeなagentとして対話するUIとして機能している。これ自体は流行りそう、というより、こういう書き方が増えるとhar­ness側でも「llms.txtがあれば優先的に読む」という挙動が標準になる予感。

Obsidian用のsemantic memory layer構想(local embedding + typed relation graph)

  • 原題: A semantic memory layer for Obsidian that finds the connections your vault already contains but you’ve never seen
  • ソース: reddit (r/ObsidianMD)
  • シグナル: 詳細な技術スタック開示 + 設計動機の具体性
  • 要点: 「2022年に書いた decision fatigue ノートを、今月のinterface designの執筆中に偶然3日後に再発見した」という具体的な失敗体験から逆算した設計。スタックは (1) heading構造とwikilinkを尊重した semantic chunking → Ollama でlocal embedding、(2) ベクタindexの上にtyped relation graph(supports / contradicts / extends / instantiates)、(3) dense vector + sparse keywordのhybrid retrieval、(4) ローカルLLMによる矛盾検出と「言及はされるが未展開のconcept」抽出、(5) proactive resurfacing(いま書いている内容にスコアリングして再浮上)。
  • なぜ刺さるか: Obsidian × AI が「素朴な埋め込み類似度」から**「型付き関係グラフ + 能動的再浮上」**へ進化している兆候。Ideaverseのup:: / related:: リンク哲学とtyped relation の親和性が高く、ACE3層 + DataView運用と自然に接続できる。「invisible connection」という問題設定が、自分が日々感じている「結びついたノートを見逃す」感覚そのもの。

Antigravity 2.0 (Gemini 3.5 Flash High) がOpenSCAD建築モデル生成ベンチで首位

  • 原題: Antigravity 2.0 Tops the OpenSCAD Architectural 3D LLM Benchmark
  • ソース: hackernews
  • シグナル: points=317, comments=123
  • 要点: ModelRiftの実用ベンチ。「参照画像からPantheonをOpenSCADで建てろ」というタスクを6つのclient×modelに同じプロンプトで投げて比較。autonomous部門の勝者はGoogle Antigravity 2.0 + Gemini 3.5 Flash High(4.5/5)。Antigravityだけが実寸法を検索で取得して数式パラメータ化し、ドーム内部の5x28コファー(格天井)を再現。Claude Code 2.1 + Sonnet 4.6は3.4/5(マスは綺麗だが遅い)、Opus 4.7は3.0/5、Codex 5.5 Highは3.0/5(プレビューは強いがSTLエクスポートでズレた)。Cursor + Composer 2.5は1.4/5。
  • なぜ刺さるか: コード生成ベンチが「言語コード」から**「空間コードの幾何整合性」**に拡張されつつあるシグナル。OpenSCADを使う理由として「Boolean / radial対称 / 押出 / 名前付きモジュールはLLMの構造化思考と相性が良い、Blender MCP経由のUI操作よりも自然」とハッキリ書かれており、これは”AI-legible API”設計論として読める。Antigravity 2.0 が Codex Desktop 寄りのagent-first IDEに転換した文脈情報も併記されていて、Google系harnessの動きを追う材料として価値が高い。

vibe coding agent向けオープンソースeval harness

  • 原題: We built an open-source eval harness for vibe coding agents
  • ソース: reddit (r/LangChain)
  • シグナル: 「eval harness for coding agents」というキーワードが揃った投稿
  • 要点: タイトル&短い告知のみで本文詳細はリンク先。LangChain系コミュニティでの新しいOSS。“vibe coding”(仕様が曖昧なまま試行錯誤するコーディング)特有のagent挙動を評価する枠組みを名乗っている。コメント欄での具体的なメトリクス記述は今後フォロー予定。
  • なぜ刺さるか: “harness” + “eval” + “coding agent” が直に揃っている。HAL / Meta-Harness 系の文脈で、評価対象が「モデル単体」から「ハーネス込みのコーディングシステム」に明確にシフトしている例。コードが軽量なら、自分のClaude Code subagent運用に対するセルフeval枠として転用できる可能性あり。

★★ 関連

メタ情報

  • 候補総数: 903 → キャッシュ除外後 895
  • 採択: ★★★ 6 / ★★ 7 / ★ 0
  • 失敗ソース: anthropic(HTML一覧から日付を抽出した結果、Dec 18, 2025公開のProject Vend 2やFeb 4, 2026公開記事を「今日」として誤検出する事例が再発したため、本日は失敗扱い。SKILL.md冒頭の警告通りの失敗モード)
  • 除外理由の傾向: arXivのcross-list論文が大量(cs.AI/CL/LG合算で817件うち本日のagent/harness/eval/Claude Code/PKM領域に直撃する論文タイトルは見当たらず、★★★ノミネートはなし)、SpaceX/政治系のHN記事、転職系r/LangChain投稿、Mahjong RL等の関係なしarXiv論文

AI Trends へ戻る