このノートについて

自動生成されたAIトレンドフィード。★★★項目で永続化したいものは AI Trends MOC 経由で Atlas に昇格する。

2026-05-23 AIトレンド

今日のサマリー

今日は ハンドオフ／ルーティング 系の話題が一気に揃った日。r/ClaudeAI でMatt Pocockのhandoff skillをきっかけにした「永続narrative + ephemeral prompt」の2ファイル分割提案、r/LangChainで「Opus 4.1 を上位ルーターに、サブタスクをDeepSeek V4 Pro / Hunyuan Hy3 に逃がして月 $300 \to$ 63にした」という具体的なTiered routing事例、r/ClaudeAIで「Sonnet 4.6 / GPT-5.5 / Gemini 3.1 をタスク別に手動ルート」している実用報告と、いずれもSupervisor pattern + cost-aware harnessの実装パターンが収束してきている。

並行して AI-legible interface 系として、Anna’s Archive の llms.txt（HN 665pts）が刺さる。CAPTCHAを叩く代わりに公式の bulk dump を案内し、寄付経路まで提示するという、Environment Engineering の良い実例。

PKM側では r/ObsidianMD で「local embedding + typed relation knowledge graph」を狙う semantic memory layer 構想と、Poneglyph（h-indexランク付きdeep research plugin）が続けて出てきており、Obsidian × LLM が「埋め込み検索」から「型付き関係グラフ + proactive resurfacing」へ世代交代している気配。Anthropic公式は日付パースが古い記事を誤検出したため今回は失敗扱い。

★★★ 注目

Claudeワークフローで「Handoff」が一級概念になりつつある

原題: Handoffs are becoming a first-class pattern in Claude workflows. Here is how I have been thinking about them.
ソース: reddit (r/ClaudeAI)
シグナル: 投稿主はAPM (multi-agent framework for Claude Code) 著者
要点: Matt Pocock の handoff skill（会話を1コマンドでドキュメント化し、既存artifactを再参照させて次のエージェントに渡す）を取り上げつつ、APM側で2025年5月から運用してきた2ファイル分割を提案している。(1) 何を決め何を作ったかを記録する永続narrative file、(2) 次のagentに「コードベースとnarrativeから自分で文脈を再構成しろ」と指示するephemeral prompt。後続agentは圧縮chatではなく耐久的な project state から復元する。さらに narrative を残すことで「いま動いているagentが原典を見ているのか要約越しに見ているのか」を追跡でき、multi-agent system のcontext gap管理が容易になる、と。/grill-with-docs → /handoff → /prototype → /handoff back の連鎖例も。
なぜ刺さるか: 「Subagentパイプライン」「context isolation」「handoff ルール」の核心。kepano流のskill配布規約と、自分が運用しているhook + subagent構成にそのまま輸入できる議論。特に永続/瞬間の二層分割は、CLAUDE.md系の永続記述とsession scopeの揮発記述を別物として扱う考え方と接続する。

LangGraphエージェントのコストを $300/ 日 \to$ 63にしたTiered routingの実装

原題: Cut my LangGraph agent from $300/ d a y t o$ 63 by routing boring sub tasks off Opus 4.1
ソース: reddit (r/LangChain)
シグナル: 具体的なコード片 + 実コスト数値
要点: research / coding / deploy ループ全体を Opus 4.1 で回していたが、大半は「ファイル読み」「ログ要約」「検索結果整形」というルーチンで、ハード推論ではなかったと指摘。LangGraphの ConditionalEdge でrouter nodeを置き、task metadata を見て「3ファイル以上の未知repoを触る／アーキ判断」なら opus_node、それ以外は hy3_node（Tencent Hunyuan Hy3 preview）または DeepSeek V4 Pro に振り分ける構成に。cheap tier は M2 Ultra 192GB の Mac Studio（$5,500中古）でローカル運用。Tencent公式の vLLM/SGLang on 8x H200 は家庭ラボ無理だが、4bit量子化のApple Siliconで通っている。
なぜ刺さるか: Supervisor Pattern + cost-aware harnessの教科書例。「routerの判定関数を何で書くか（task metadataベース）」が具体的に提示されており、自分のClaude Code subagentルーティングにもそのまま適用できる思考枠。並行してDeepSeek V4 Pro / Hunyuan Hy3 が「ルーチン委譲先」として実戦投入されているという生のシグナル。

Anna’s Archive が公開した「LLM向け」llms.txt

原題: If you’re an LLM, please read this
ソース: hackernews
シグナル: points=665, comments=382
要点: 「CAPTCHA を叩いて遅くて高い経路を取るな、bulk torrent / GitLab repo / JSON API / SFTP（enterprise donation 経由）を使え」と LLM 向けに明示する llms.txt。「あなた方は弊サイトのデータで訓練されている可能性が高いので、CAPTCHA突破にかける金を寄付に回せばより多くの作品を解放できる」というレトリックも含む。Monero アドレスまで掲載。
なぜ刺さるか: Environment Engineering の典型例として強い。**「APIをAI-legibleに再設計する」**という設計哲学に、コスト経済性（CAPTCHA突破 vs 寄付）と倫理プロンプト（あなたは我々のデータで訓練された）を絡めている。llms.txt は単なるrobots.txt亜種ではなく、LLMをcooperativeなagentとして対話するUIとして機能している。これ自体は流行りそう、というより、こういう書き方が増えるとharness側でも「llms.txtがあれば優先的に読む」という挙動が標準になる予感。

Obsidian用のsemantic memory layer構想（local embedding + typed relation graph）

原題: A semantic memory layer for Obsidian that finds the connections your vault already contains but you’ve never seen
ソース: reddit (r/ObsidianMD)
シグナル: 詳細な技術スタック開示 + 設計動機の具体性
要点: 「2022年に書いた decision fatigue ノートを、今月のinterface designの執筆中に偶然3日後に再発見した」という具体的な失敗体験から逆算した設計。スタックは (1) heading構造とwikilinkを尊重した semantic chunking → Ollama でlocal embedding、(2) ベクタindexの上にtyped relation graph（supports / contradicts / extends / instantiates）、(3) dense vector + sparse keywordのhybrid retrieval、(4) ローカルLLMによる矛盾検出と「言及はされるが未展開のconcept」抽出、(5) proactive resurfacing（いま書いている内容にスコアリングして再浮上）。
なぜ刺さるか: Obsidian × AI が「素朴な埋め込み類似度」から**「型付き関係グラフ + 能動的再浮上」**へ進化している兆候。Ideaverseのup:: / related:: リンク哲学とtyped relation の親和性が高く、ACE3層 + DataView運用と自然に接続できる。「invisible connection」という問題設定が、自分が日々感じている「結びついたノートを見逃す」感覚そのもの。

Antigravity 2.0 (Gemini 3.5 Flash High) がOpenSCAD建築モデル生成ベンチで首位

原題: Antigravity 2.0 Tops the OpenSCAD Architectural 3D LLM Benchmark
ソース: hackernews
シグナル: points=317, comments=123
要点: ModelRiftの実用ベンチ。「参照画像からPantheonをOpenSCADで建てろ」というタスクを6つのclient×modelに同じプロンプトで投げて比較。autonomous部門の勝者はGoogle Antigravity 2.0 + Gemini 3.5 Flash High（4.5/5）。Antigravityだけが実寸法を検索で取得して数式パラメータ化し、ドーム内部の5x28コファー（格天井）を再現。Claude Code 2.1 + Sonnet 4.6は3.4/5（マスは綺麗だが遅い）、Opus 4.7は3.0/5、Codex 5.5 Highは3.0/5（プレビューは強いがSTLエクスポートでズレた）。Cursor + Composer 2.5は1.4/5。
なぜ刺さるか: コード生成ベンチが「言語コード」から**「空間コードの幾何整合性」**に拡張されつつあるシグナル。OpenSCADを使う理由として「Boolean / radial対称 / 押出 / 名前付きモジュールはLLMの構造化思考と相性が良い、Blender MCP経由のUI操作よりも自然」とハッキリ書かれており、これは”AI-legible API”設計論として読める。Antigravity 2.0 が Codex Desktop 寄りのagent-first IDEに転換した文脈情報も併記されていて、Google系harnessの動きを追う材料として価値が高い。

vibe coding agent向けオープンソースeval harness

原題: We built an open-source eval harness for vibe coding agents
ソース: reddit (r/LangChain)
シグナル: 「eval harness for coding agents」というキーワードが揃った投稿
要点: タイトル＆短い告知のみで本文詳細はリンク先。LangChain系コミュニティでの新しいOSS。“vibe coding”（仕様が曖昧なまま試行錯誤するコーディング）特有のagent挙動を評価する枠組みを名乗っている。コメント欄での具体的なメトリクス記述は今後フォロー予定。
なぜ刺さるか: “harness” + “eval” + “coding agent” が直に揃っている。HAL / Meta-Harness 系の文脈で、評価対象が「モデル単体」から「ハーネス込みのコーディングシステム」に明確にシフトしている例。コードが軽量なら、自分のClaude Code subagent運用に対するセルフeval枠として転用できる可能性あり。

★★ 関連

DeepSeek V4 Proの値引きを恒久化 — 当初プロモ価格としていたV4 Pro料金を恒久化、コスト感の前提が変わる(hackernews, points=219, comments=118)
Qwen CodeとCC/OC/LC/Aider等の harness 比較を募集 — ローカルQwenをどのharnessで包むかが主戦場になりつつあるという質問(reddit, r/LocalLLaMA)
Claude Sonnet 4.6 / GPT-5.5 / Gemini 3.1 の手動ルーティング3か月レポート — 「長文ニュアンス→Sonnet」「構造化出力/tool calling→GPT」「最新性/超長文→Gemini」という分担。タブ往復が辛いのが結論(reddit, r/ClaudeAI)
Simon Willison: Datasette Agent + sprites/charts プラグイン群 — SimonによるDatasetteのagent化プロジェクト(0.1a3) と関連plugin (sprites, charts) を同日に連投。SQLite vault上でのagent運用例として注目(simon-willison)
Lerim: Apache-2.0のcontext compiler for AI agents — context engineeringを”コンパイラ”として抽象化する試み。詳細は要追跡(reddit, r/LangChain)
Poneglyph: Obsidian用 deep research プラグイン（h-index ランク付き引用） — IDEA.md を投げると論文を取りに行き、SOURCES.md に集約してmarkdownノート化。学術用途の deep research をObsidian inside で完結(reddit, r/ObsidianMD)
LLMGuard: LangChain向けprompt injection + hallucination guard — Promptインジェクション分類器(F1=0.944) + NLIベースのhallucination検出 + ChromaDB共有メモリ。MCP/agent界の周辺セキュリティ層として注視(reddit, r/LangChain)

メタ情報

候補総数: 903 → キャッシュ除外後 895
採択: ★★★ 6 / ★★ 7 / ★ 0
失敗ソース: anthropic（HTML一覧から日付を抽出した結果、Dec 18, 2025公開のProject Vend 2やFeb 4, 2026公開記事を「今日」として誤検出する事例が再発したため、本日は失敗扱い。SKILL.md冒頭の警告通りの失敗モード）
除外理由の傾向: arXivのcross-list論文が大量（cs.AI/CL/LG合算で817件うち本日のagent/harness/eval/Claude Code/PKM領域に直撃する論文タイトルは見当たらず、★★★ノミネートはなし）、SpaceX/政治系のHN記事、転職系r/LangChain投稿、Mahjong RL等の関係なしarXiv論文

⬆ AI Trends へ戻る

Quartz 5

Explorer

2026-05-23 AI Trend

2026-05-23 AIトレンド

今日のサマリー

★★★ 注目

Claudeワークフローで「Handoff」が一級概念になりつつある

LangGraphエージェントのコストを $300/ 日 \to$ 63にしたTiered routingの実装

Anna’s Archive が公開した「LLM向け」llms.txt

Obsidian用のsemantic memory layer構想（local embedding + typed relation graph）

Antigravity 2.0 (Gemini 3.5 Flash High) がOpenSCAD建築モデル生成ベンチで首位

vibe coding agent向けオープンソースeval harness

★★ 関連

メタ情報

Graph View

Table of Contents

Backlinks

Quartz 5

Explorer

2026-05-23 AI Trend

2026-05-23 AIトレンド

今日のサマリー

★★★ 注目

Claudeワークフローで「Handoff」が一級概念になりつつある

LangGraphエージェントのコストを300/日→63にしたTiered routingの実装

Anna’s Archive が公開した「LLM向け」llms.txt

Obsidian用のsemantic memory layer構想（local embedding + typed relation graph）

Antigravity 2.0 (Gemini 3.5 Flash High) がOpenSCAD建築モデル生成ベンチで首位

vibe coding agent向けオープンソースeval harness

★★ 関連

メタ情報

Graph View

Table of Contents

Backlinks

LangGraphエージェントのコストを $300/ 日 \to$ 63にしたTiered routingの実装