このノートについて

自動生成されたAIトレンドフィード。★★★項目で永続化したいものは AI Trends MOC 経由で Atlas に昇格する。

2026-05-19 AIトレンド

今日のサマリー

今日の主役は ハーネス工学の収束 だった。Cloudflareが Anthropic Mythos プレビューを使って50リポジトリをスキャンした結果、「LLMをコードベースに直接当てるとカバレッジ低・ノイズ高で、reconnaissance / parallel hunting / validation / deduplication / cross-repo tracing を備えた多段ハーネスを組まないと使い物にならない」と結論づけたのが象徴的。arXiv からは “CAX-Agent” がタイトルに “Agent Harness” を冠して登場し、リカバリラダー（決定論的パッチ → モデル再生成 → コンテキスト追加 → 人間介入）で zero-intervention rate 84% を出すなど、harness 用語が実際に論文に降りてきた日だった。Anthropic は Stainless（SDK/MCPサーバー生成会社）を買収して “agent connectivity” 強化、Walking Labs は “Learn Harness Engineering” コースを公開、SkillSmith は skill をオフラインコンパイルして 57% トークン削減を達成。Agent = Model + Harness が概念から実装エコシステムへ移行する週になりつつある。

★★★ 注目

Anthropic、Stainless を買収（SDK/MCP サーバーツーリング会社）

原題: Anthropic acquires Stainless
ソース: anthropic / hackernews
シグナル: HN 261 points / 185 comments
要点: 2022年創業の Stainless は TypeScript/Python/Go/Java/Kotlin など複数言語の SDK 自動生成を本業とし、Anthropic API 公式 SDK は当初から Stainless 製。今回の買収はモデル単体ではなく「Claude が外部システムに繋がる経路」を内製化する動きで、MCP サーバーや CLI 生成も Stainless の守備範囲に入る。“Agents are only as useful as what they can connect to” という Anthropic 公式表現が買収理由を端的に示す。
なぜ刺さるか: コア領域「Plugin・SDK」「Environment Engineering」直撃。API を AI-legible に再設計する逆方向アプローチの最右翼が SDK 生成パイプラインの内製化で、Anthropic Managed Agents の文脈とも繋がる。今後 Claude SDK + MCP の整合性が一段加速する可能性が高い。

Cloudflare、Anthropic Mythos プレビュー検証——「LLM をコードに当てるだけ」では脆弱性発見は機能しない

原題: Project Glasswing: what Mythos showed us
ソース: hackernews
シグナル: HN 234 points / 89 comments
要点: Anthropic の Project Glasswing は脆弱性発見特化 LLM “Mythos” を限定組織にテストさせる研究プログラム。Cloudflare は50以上のリポジトリを Mythos でスキャンして得た結論として「exploit chain construction（複数バグの連鎖化）と PoC 生成は確かに前世代モデルを超えた」一方で「コードベースに LLM を直接向けても poor coverage / high noise にしかならない」と明言。彼らが採用したのは reconnaissance → parallel hunting agents → validation → deduplication → cross-repository tracing の多段ハーネス。
なぜ刺さるか: コア領域「ハーネス工学全般」「Subagent パイプライン」「設計パターンの収束（Supervisor Pattern、Strict Phase-Gating）」直撃。“chat interface ではダメ、orchestrated systems が必要” という結論が、本流の AI 企業ではなくセキュリティ実務側から強く出てきた点が重要。眉唾なく、harness 工学が現場で勝ち筋として認知された記録。

Walking Labs、“Learn Harness Engineering” コースを公開

原題: Learn Harness Engineering
ソース: hackernews
シグナル: HN 102 points / 10 comments
要点: OpenAI / Anthropic 系の知見を統合し、コーディングエージェントの信頼性確保のための「クローズドループ動作系」を体系化する12レクチャー＋プロジェクト＋テンプレ集。“capable AI models still fail without proper structural constraints” を出発点に、ふるまいの制約・拡張タスクでのコンテキスト維持・早期成功宣言の防止・検証テスト・runtime observability を扱う。“Agent = Model + Harness” の語自体は明示しないが、context rot やタスク継続性を構造側で解く立場を明確に取っている。
なぜ刺さるか: コア領域「ハーネス工学全般」をそのまま教材化したもの。HaaS や Anthropic Managed Agents の前提知識として有用。コース構造（12レクチャー）は自分の Skill 設計の progressive disclosure とも対比できる。中身を読む価値があるかは要検証だが、サブ領域の語彙が固有名詞化していく流れが追える。

CAX-Agent: APDL 自動化のための軽量 Agent Harness（リカバリラダー方式）

原題: CAX-Agent: A Lightweight Agent Harness for Reliable APDL Automation
ソース: arxiv (cs.AI)
シグナル: 2026-05-18 投稿、タイトルに “Agent Harness” を冠する
要点: ANSYS MAPDL（有限要素解析スクリプト）の LLM 自動化フレームワーク。LLM とソルバの間に「execution control / tool encapsulation / fault recovery」を担うミドルウェア層を置き、回復戦略を rule patching → model-driven regeneration → context enrichment → human intervention の梯子状に階層化。50ベンチマーク×複数試行で model-driven recovery が completion rate 92.67%、zero-intervention rate 84% を達成（rule-only 77.33%、no-recovery 69.33%）。
なぜ刺さるか: コア領域「ハーネス失敗パターン」「設計パターンの収束」直撃。“recovery ladder” は graceful degradation を harness レイヤで明示する好例で、Subagent パイプラインや hook 構成に応用できる発想。ドメインは特殊だがアーキテクチャは汎用、特に「人間介入は最終手段、その前に決定論→モデル再生成→文脈追加」の順序付けは hook 設計の参考になる。

SkillSmith: Skill をオフライン・コンパイルして runtime に渡す「境界誘導型」スキル実行系

原題: SkillSmith: Compiling Agent Skills into Boundary-Guided Runtime Interfaces
ソース: arxiv (cs.AI)
シグナル: 2026-05-18 投稿
要点: 既存の skill 実装（生 skill 定義を毎回 reasoning loop に注入）は「不要な文脈の膨張」と「同一の skill 推論の繰り返し」で非効率という指摘から出発。SkillSmith はオフラインで skill を「fine-grained operational boundaries」に分解・コンパイルし、runtime には必要な要素だけを渡す。結果: トークン使用量 57.44% 削減、thinking iterations 42.99% 削減、実行 2.02x 高速化、強モデルで生成したコンパイル成果物を弱モデルで再利用可能。
なぜ刺さるか: コア領域「Skill 設計」「progressive disclosure」「コンテキスト工学」直撃。Claude Code skills の「SKILL.md 全体をロードして都度 LLM が読む」モデルと正面から対立するアプローチで、skill を「ソース → ビルド成果物 → 実行時インターフェース」と捉え直す思想。Claude Skills は人間可読性を残す方向、SkillSmith は機械最適化を取りに行く方向。将来的に skill のビルドステップが標準化される可能性を予感させる。

SaaS-Bench: 実 SaaS 23本でコンピュータ使用エージェントを評価——end-to-end 完了率 4% 未満

原題: SaaS-Bench: Can Computer-Use Agents Leverage Real-World SaaS to Solve Professional Workflows?
ソース: arxiv (cs.AI)
シグナル: 2026-05-18 投稿
要点: 6職種ドメイン × 23 SaaS プラットフォーム × 106タスクの professional workflow ベンチ。OSWorld や AgentBench のような隔離環境ではなく deployable な実 SaaS を相手にし、dynamic state / cross-app coordination / 長期依存を強制する。重み付き verification checkpoint で部分完了も評価。最強の CUA でも end-to-end 4% 未満しか完了せず、planning / state tracking / cross-app context maintenance / error recovery のいずれにも大きなギャップがあることを露呈。
なぜ刺さるか: コア領域「LLM 評価・解釈可能性（特に harness が評価対象に入るベンチ）」「長期タスクエージェント設計」直撃。「4%未満」という数字は CUA を巡る誇大表現に対する強い反証材料。逆に言えば harness 側の伸びしろがそのままこのギャップで、HAL/Meta-Harness 系の評価対象として今後参照されそう。

★★ 関連

Qwen 3.7 Preview（Alibaba） — Alibaba_Qwen 公式アカウントが Qwen 3.7 Preview を告知。ただし 5/18 時点ではチャット UI に選択肢が出ただけで、open-weights や公式モデルカードは未公開。3.6-Max-Preview が SWE-bench Pro / Terminal-Bench 2.0 等で首位を取った直後のロードマップ宣言の側面が強い。(hackernews, 170 points / 63 comments)
Files.md — Obsidian のオープンソース代替 — ローカルファースト＋PWA で .md ファイルをそのまま保存、Telegram bot 経由のクイックキャプチャ付き。Obsidian の機能膨張に対するミニマル路線の主張（“restrictions foster creativity”）。Ideaverse 運用の機能要件を逆照射する参考。(hackernews, 453 points / 243 comments)
SDOF: Multi-Agent Orchestration を State Machine として扱う — LangChain/LangGraph/CrewAI は graph-based だが業務プロセスの stage 制約を強制しないという問題提起。GRPO で学習した Intent Router + GoalStage 有限オートマトン Dispatcher の二層構成で alignment tax を抑制。Strict Phase-Gating の実装系。(arxiv cs.AI, 2026-05-18)
FORGE: 重み更新なしのエージェント記憶を「集団進化」で育てる — Reflexion 型内ループの上に集団選抜層を被せ、失敗トラジェクトリを Rules / few-shot demo に変換して prompt-injected memory として育てる。distillation 不要、同一 LLM 内で完結。長期タスク用 memory 系の “first draft” 寄りパターン。(arxiv cs.AI, 2026-05-18)
DimMem: 長期メモリを atomic typed unit に正規化する — 生対話の高コストとフラット要約の構造喪失の中間解として、time / location / reason / purpose / keywords 等の固定フィールドを持つ atomic memory unit を提案。memory schema を明示する立場で、structured note-taking の延長として読める。(arxiv cs.CL, 2026-05-18)
Context Pruning for Coding Agents（多基準潜在推論） — コーディングエージェントはトークン予算の大半をリポジトリ読みに使うが大半が無関係、という前提。既存の単一目的 CRF プルーナーが contiguous span と sparse 構造行を同時に扱えないボトルネックを指摘し、複数 rubric の潜在推論で分離。コンテキスト工学のローカル最適化系。(arxiv cs.AI, 2026-05-18)
AgentStop: ローカル AI エージェントの早期終了で省電力化 — コンシューマデバイス上のローカルエージェントが消費する電力に注目し、タスク中の早期終了判定を入れる。METR 系の長期タスク早期停止問題の “省電力” 側からの定式化として読める。(arxiv cs.LG, 2026-05-18)

★ 雑学

Git の —author フラグで AI ボットスパムを止めた — GitHub 上で AI 生成スパム PR を識別するのに、コミットの --author メタデータが使えるという小ネタ。(hackernews, 339 points / 167 comments)
音声 AI システムは”聞こえない”音響攻撃に脆弱 — 人間には聞こえない帯域の信号で音声 AI を操作できるという IEEE Spectrum 記事。Mythos/Glasswing と同日に出てきたのが象徴的。(hackernews, 98 points / 27 comments)

メタ情報

候補総数: HN 12 / Simon Willison 2（うち AI 関連 0、鳥観察と NHS のみ）/ Anthropic 1（48h以内）/ arXiv 143（キーワードスコア ≥2 で絞り込み後）= 約 158
採択: ★★★ 6 / ★★ 7 / ★ 2
失敗ソース: reddit（old.reddit.com / www.reddit.com / np.reddit.com いずれも Blocked ページ 1.5KB を返す。User-Agent を Mozilla/Googlebot/カスタムに変えても同様。本環境からのアクセス遮断と判断）
除外理由の傾向:
- Anthropic 法廷ニュース（“Elon Musk lost lawsuit against Sam Altman”）はゴシップ寄りで除外
- “Garry Tan accused me” 系メディア政治ネタは除外
- “Iran Bitcoin-backed insurance” は暗号通貨領域につき除外
- Simon Willison の鳥観察エントリ（Glaucous-winged Gull 他）はトピック外
- arXiv は cross-list / replace を除外、コア領域キーワードスコア 2 未満を除外

⬆ AI Trends へ戻る

Quartz 5

Explorer

2026-05-19 AI Trend

2026-05-19 AIトレンド

今日のサマリー

★★★ 注目

Anthropic、Stainless を買収（SDK/MCP サーバーツーリング会社）

Cloudflare、Anthropic Mythos プレビュー検証——「LLM をコードに当てるだけ」では脆弱性発見は機能しない

Walking Labs、“Learn Harness Engineering” コースを公開

CAX-Agent: APDL 自動化のための軽量 Agent Harness（リカバリラダー方式）

SkillSmith: Skill をオフライン・コンパイルして runtime に渡す「境界誘導型」スキル実行系

SaaS-Bench: 実 SaaS 23本でコンピュータ使用エージェントを評価——end-to-end 完了率 4% 未満

★★ 関連

★ 雑学

メタ情報

Graph View

Table of Contents

Backlinks