このノートについて
自動生成されたAIトレンドフィード。★★★項目で永続化したいものは AI Trends MOC 経由で Atlas に昇格する。
2026-05-23 AIトレンド
今日のサマリー
今日は ハンドオフ/ルーティング 系の話題が一気に揃った日。r/ClaudeAI でMatt Pocockのhandoff skillをきっかけにした「永続narrative + ephemeral prompt」の2ファイル分割提案、r/LangChainで「Opus 4.1 を上位ルーターに、サブタスクをDeepSeek V4 Pro / Hunyuan Hy3 に逃がして月63にした」という具体的なTiered routing事例、r/ClaudeAIで「Sonnet 4.6 / GPT-5.5 / Gemini 3.1 をタスク別に手動ルート」している実用報告と、いずれもSupervisor pattern + cost-aware harnessの実装パターンが収束してきている。
並行して AI-legible interface 系として、Anna’s Archive の llms.txt(HN 665pts)が刺さる。CAPTCHAを叩く代わりに公式の bulk dump を案内し、寄付経路まで提示するという、Environment Engineering の良い実例。
PKM側では r/ObsidianMD で「local embedding + typed relation knowledge graph」を狙う semantic memory layer 構想と、Poneglyph(h-indexランク付きdeep research plugin)が続けて出てきており、Obsidian × LLM が「埋め込み検索」から「型付き関係グラフ + proactive resurfacing」へ世代交代している気配。Anthropic公式は日付パースが古い記事を誤検出したため今回は失敗扱い。
★★★ 注目
Claudeワークフローで「Handoff」が一級概念になりつつある
- 原題: Handoffs are becoming a first-class pattern in Claude workflows. Here is how I have been thinking about them.
- ソース: reddit (r/ClaudeAI)
- シグナル: 投稿主はAPM (multi-agent framework for Claude Code) 著者
- 要点: Matt Pocock の handoff skill(会話を1コマンドでドキュメント化し、既存artifactを再参照させて次のエージェントに渡す)を取り上げつつ、APM側で2025年5月から運用してきた2ファイル分割を提案している。(1) 何を決め何を作ったかを記録する永続narrative file、(2) 次のagentに「コードベースとnarrativeから自分で文脈を再構成しろ」と指示するephemeral prompt。後続agentは圧縮chatではなく耐久的な project state から復元する。さらに narrative を残すことで「いま動いているagentが原典を見ているのか要約越しに見ているのか」を追跡でき、multi-agent system のcontext gap管理が容易になる、と。
/grill-with-docs → /handoff → /prototype → /handoff backの連鎖例も。 - なぜ刺さるか: 「Subagentパイプライン」「context isolation」「handoff ルール」の核心。kepano流のskill配布規約と、自分が運用しているhook + subagent構成にそのまま輸入できる議論。特に永続/瞬間の二層分割は、CLAUDE.md系の永続記述とsession scopeの揮発記述を別物として扱う考え方と接続する。
LangGraphエージェントのコストを63にしたTiered routingの実装
- 原題: Cut my LangGraph agent from 63 by routing boring sub tasks off Opus 4.1
- ソース: reddit (r/LangChain)
- シグナル: 具体的なコード片 + 実コスト数値
- 要点: research / coding / deploy ループ全体を Opus 4.1 で回していたが、大半は「ファイル読み」「ログ要約」「検索結果整形」というルーチンで、ハード推論ではなかったと指摘。LangGraphの
ConditionalEdgeでrouter nodeを置き、task metadata を見て「3ファイル以上の未知repoを触る/アーキ判断」ならopus_node、それ以外はhy3_node(Tencent Hunyuan Hy3 preview)または DeepSeek V4 Pro に振り分ける構成に。cheap tier は M2 Ultra 192GB の Mac Studio($5,500中古)でローカル運用。Tencent公式の vLLM/SGLang on 8x H200 は家庭ラボ無理だが、4bit量子化のApple Siliconで通っている。 - なぜ刺さるか: Supervisor Pattern + cost-aware harnessの教科書例。「routerの判定関数を何で書くか(task metadataベース)」が具体的に提示されており、自分のClaude Code subagentルーティングにもそのまま適用できる思考枠。並行してDeepSeek V4 Pro / Hunyuan Hy3 が「ルーチン委譲先」として実戦投入されているという生のシグナル。
Anna’s Archive が公開した「LLM向け」llms.txt
- 原題: If you’re an LLM, please read this
- ソース: hackernews
- シグナル: points=665, comments=382
- 要点: 「CAPTCHA を叩いて遅くて高い経路を取るな、bulk torrent / GitLab repo / JSON API / SFTP(enterprise donation 経由)を使え」と LLM 向けに明示する
llms.txt。「あなた方は弊サイトのデータで訓練されている可能性が高いので、CAPTCHA突破にかける金を寄付に回せばより多くの作品を解放できる」というレトリックも含む。Monero アドレスまで掲載。 - なぜ刺さるか: Environment Engineering の典型例として強い。**「APIをAI-legibleに再設計する」**という設計哲学に、コスト経済性(CAPTCHA突破 vs 寄付)と倫理プロンプト(あなたは我々のデータで訓練された)を絡めている。
llms.txtは単なるrobots.txt亜種ではなく、LLMをcooperativeなagentとして対話するUIとして機能している。これ自体は流行りそう、というより、こういう書き方が増えるとharness側でも「llms.txtがあれば優先的に読む」という挙動が標準になる予感。
Obsidian用のsemantic memory layer構想(local embedding + typed relation graph)
- 原題: A semantic memory layer for Obsidian that finds the connections your vault already contains but you’ve never seen
- ソース: reddit (r/ObsidianMD)
- シグナル: 詳細な技術スタック開示 + 設計動機の具体性
- 要点: 「2022年に書いた decision fatigue ノートを、今月のinterface designの執筆中に偶然3日後に再発見した」という具体的な失敗体験から逆算した設計。スタックは (1) heading構造とwikilinkを尊重した semantic chunking → Ollama でlocal embedding、(2) ベクタindexの上にtyped relation graph(supports / contradicts / extends / instantiates)、(3) dense vector + sparse keywordのhybrid retrieval、(4) ローカルLLMによる矛盾検出と「言及はされるが未展開のconcept」抽出、(5) proactive resurfacing(いま書いている内容にスコアリングして再浮上)。
- なぜ刺さるか: Obsidian × AI が「素朴な埋め込み類似度」から**「型付き関係グラフ + 能動的再浮上」**へ進化している兆候。Ideaverseの
up::/related::リンク哲学とtyped relation の親和性が高く、ACE3層 + DataView運用と自然に接続できる。「invisible connection」という問題設定が、自分が日々感じている「結びついたノートを見逃す」感覚そのもの。
Antigravity 2.0 (Gemini 3.5 Flash High) がOpenSCAD建築モデル生成ベンチで首位
- 原題: Antigravity 2.0 Tops the OpenSCAD Architectural 3D LLM Benchmark
- ソース: hackernews
- シグナル: points=317, comments=123
- 要点: ModelRiftの実用ベンチ。「参照画像からPantheonをOpenSCADで建てろ」というタスクを6つのclient×modelに同じプロンプトで投げて比較。autonomous部門の勝者はGoogle Antigravity 2.0 + Gemini 3.5 Flash High(4.5/5)。Antigravityだけが実寸法を検索で取得して数式パラメータ化し、ドーム内部の5x28コファー(格天井)を再現。Claude Code 2.1 + Sonnet 4.6は3.4/5(マスは綺麗だが遅い)、Opus 4.7は3.0/5、Codex 5.5 Highは3.0/5(プレビューは強いがSTLエクスポートでズレた)。Cursor + Composer 2.5は1.4/5。
- なぜ刺さるか: コード生成ベンチが「言語コード」から**「空間コードの幾何整合性」**に拡張されつつあるシグナル。OpenSCADを使う理由として「Boolean / radial対称 / 押出 / 名前付きモジュールはLLMの構造化思考と相性が良い、Blender MCP経由のUI操作よりも自然」とハッキリ書かれており、これは”AI-legible API”設計論として読める。Antigravity 2.0 が Codex Desktop 寄りのagent-first IDEに転換した文脈情報も併記されていて、Google系harnessの動きを追う材料として価値が高い。
vibe coding agent向けオープンソースeval harness
- 原題: We built an open-source eval harness for vibe coding agents
- ソース: reddit (r/LangChain)
- シグナル: 「eval harness for coding agents」というキーワードが揃った投稿
- 要点: タイトル&短い告知のみで本文詳細はリンク先。LangChain系コミュニティでの新しいOSS。“vibe coding”(仕様が曖昧なまま試行錯誤するコーディング)特有のagent挙動を評価する枠組みを名乗っている。コメント欄での具体的なメトリクス記述は今後フォロー予定。
- なぜ刺さるか: “harness” + “eval” + “coding agent” が直に揃っている。HAL / Meta-Harness 系の文脈で、評価対象が「モデル単体」から「ハーネス込みのコーディングシステム」に明確にシフトしている例。コードが軽量なら、自分のClaude Code subagent運用に対するセルフeval枠として転用できる可能性あり。
★★ 関連
- DeepSeek V4 Proの値引きを恒久化 — 当初プロモ価格としていたV4 Pro料金を恒久化、コスト感の前提が変わる(hackernews, points=219, comments=118)
- Qwen CodeとCC/OC/LC/Aider等の harness 比較を募集 — ローカルQwenをどのharnessで包むかが主戦場になりつつあるという質問(reddit, r/LocalLLaMA)
- Claude Sonnet 4.6 / GPT-5.5 / Gemini 3.1 の手動ルーティング3か月レポート — 「長文ニュアンス→Sonnet」「構造化出力/tool calling→GPT」「最新性/超長文→Gemini」という分担。タブ往復が辛いのが結論(reddit, r/ClaudeAI)
- Simon Willison: Datasette Agent + sprites/charts プラグイン群 — SimonによるDatasetteのagent化プロジェクト(0.1a3) と関連plugin (sprites, charts) を同日に連投。SQLite vault上でのagent運用例として注目(simon-willison)
- Lerim: Apache-2.0のcontext compiler for AI agents — context engineeringを”コンパイラ”として抽象化する試み。詳細は要追跡(reddit, r/LangChain)
- Poneglyph: Obsidian用 deep research プラグイン(h-index ランク付き引用) —
IDEA.mdを投げると論文を取りに行き、SOURCES.mdに集約してmarkdownノート化。学術用途の deep research をObsidian inside で完結(reddit, r/ObsidianMD) - LLMGuard: LangChain向けprompt injection + hallucination guard — Promptインジェクション分類器(F1=0.944) + NLIベースのhallucination検出 + ChromaDB共有メモリ。MCP/agent界の周辺セキュリティ層として注視(reddit, r/LangChain)
メタ情報
- 候補総数: 903 → キャッシュ除外後 895
- 採択: ★★★ 6 / ★★ 7 / ★ 0
- 失敗ソース: anthropic(HTML一覧から日付を抽出した結果、
Dec 18, 2025公開のProject Vend 2やFeb 4, 2026公開記事を「今日」として誤検出する事例が再発したため、本日は失敗扱い。SKILL.md冒頭の警告通りの失敗モード) - 除外理由の傾向: arXivのcross-list論文が大量(cs.AI/CL/LG合算で817件うち本日のagent/harness/eval/Claude Code/PKM領域に直撃する論文タイトルは見当たらず、★★★ノミネートはなし)、SpaceX/政治系のHN記事、転職系r/LangChain投稿、Mahjong RL等の関係なしarXiv論文
⬆ AI Trends へ戻る