このノートについて
自動生成されたAIトレンドフィード。★★★項目で永続化したいものは AI Trends MOC 経由で Atlas に昇格する。
2026-05-19 AIトレンド
今日のサマリー
今日の主役は ハーネス工学の収束 だった。Cloudflareが Anthropic Mythos プレビューを使って50リポジトリをスキャンした結果、「LLMをコードベースに直接当てるとカバレッジ低・ノイズ高で、reconnaissance / parallel hunting / validation / deduplication / cross-repo tracing を備えた多段ハーネスを組まないと使い物にならない」と結論づけたのが象徴的。arXiv からは “CAX-Agent” がタイトルに “Agent Harness” を冠して登場し、リカバリラダー(決定論的パッチ → モデル再生成 → コンテキスト追加 → 人間介入)で zero-intervention rate 84% を出すなど、harness 用語が実際に論文に降りてきた日だった。Anthropic は Stainless(SDK/MCPサーバー生成会社)を買収して “agent connectivity” 強化、Walking Labs は “Learn Harness Engineering” コースを公開、SkillSmith は skill をオフラインコンパイルして 57% トークン削減を達成。Agent = Model + Harness が概念から実装エコシステムへ移行する週になりつつある。
★★★ 注目
Anthropic、Stainless を買収(SDK/MCP サーバーツーリング会社)
- 原題: Anthropic acquires Stainless
- ソース: anthropic / hackernews
- シグナル: HN 261 points / 185 comments
- 要点: 2022年創業の Stainless は TypeScript/Python/Go/Java/Kotlin など複数言語の SDK 自動生成を本業とし、Anthropic API 公式 SDK は当初から Stainless 製。今回の買収はモデル単体ではなく「Claude が外部システムに繋がる経路」を内製化する動きで、MCP サーバーや CLI 生成も Stainless の守備範囲に入る。“Agents are only as useful as what they can connect to” という Anthropic 公式表現が買収理由を端的に示す。
- なぜ刺さるか: コア領域「Plugin・SDK」「Environment Engineering」直撃。API を AI-legible に再設計する逆方向アプローチの最右翼が SDK 生成パイプラインの内製化で、Anthropic Managed Agents の文脈とも繋がる。今後 Claude SDK + MCP の整合性が一段加速する可能性が高い。
Cloudflare、Anthropic Mythos プレビュー検証——「LLM をコードに当てるだけ」では脆弱性発見は機能しない
- 原題: Project Glasswing: what Mythos showed us
- ソース: hackernews
- シグナル: HN 234 points / 89 comments
- 要点: Anthropic の Project Glasswing は脆弱性発見特化 LLM “Mythos” を限定組織にテストさせる研究プログラム。Cloudflare は50以上のリポジトリを Mythos でスキャンして得た結論として「exploit chain construction(複数バグの連鎖化)と PoC 生成は確かに前世代モデルを超えた」一方で「コードベースに LLM を直接向けても poor coverage / high noise にしかならない」と明言。彼らが採用したのは reconnaissance → parallel hunting agents → validation → deduplication → cross-repository tracing の多段ハーネス。
- なぜ刺さるか: コア領域「ハーネス工学全般」「Subagent パイプライン」「設計パターンの収束(Supervisor Pattern、Strict Phase-Gating)」直撃。“chat interface ではダメ、orchestrated systems が必要” という結論が、本流の AI 企業ではなくセキュリティ実務側から強く出てきた点が重要。眉唾なく、harness 工学が現場で勝ち筋として認知された記録。
Walking Labs、“Learn Harness Engineering” コースを公開
- 原題: Learn Harness Engineering
- ソース: hackernews
- シグナル: HN 102 points / 10 comments
- 要点: OpenAI / Anthropic 系の知見を統合し、コーディングエージェントの信頼性確保のための「クローズドループ動作系」を体系化する12レクチャー+プロジェクト+テンプレ集。“capable AI models still fail without proper structural constraints” を出発点に、ふるまいの制約・拡張タスクでのコンテキスト維持・早期成功宣言の防止・検証テスト・runtime observability を扱う。“Agent = Model + Harness” の語自体は明示しないが、context rot やタスク継続性を構造側で解く立場を明確に取っている。
- なぜ刺さるか: コア領域「ハーネス工学全般」をそのまま教材化したもの。HaaS や Anthropic Managed Agents の前提知識として有用。コース構造(12レクチャー)は自分の Skill 設計の progressive disclosure とも対比できる。中身を読む価値があるかは要検証だが、サブ領域の語彙が固有名詞化していく流れが追える。
CAX-Agent: APDL 自動化のための軽量 Agent Harness(リカバリラダー方式)
- 原題: CAX-Agent: A Lightweight Agent Harness for Reliable APDL Automation
- ソース: arxiv (cs.AI)
- シグナル: 2026-05-18 投稿、タイトルに “Agent Harness” を冠する
- 要点: ANSYS MAPDL(有限要素解析スクリプト)の LLM 自動化フレームワーク。LLM とソルバの間に「execution control / tool encapsulation / fault recovery」を担うミドルウェア層を置き、回復戦略を rule patching → model-driven regeneration → context enrichment → human intervention の梯子状に階層化。50ベンチマーク×複数試行で model-driven recovery が completion rate 92.67%、zero-intervention rate 84% を達成(rule-only 77.33%、no-recovery 69.33%)。
- なぜ刺さるか: コア領域「ハーネス失敗パターン」「設計パターンの収束」直撃。“recovery ladder” は graceful degradation を harness レイヤで明示する好例で、Subagent パイプラインや hook 構成に応用できる発想。ドメインは特殊だがアーキテクチャは汎用、特に「人間介入は最終手段、その前に決定論→モデル再生成→文脈追加」の順序付けは hook 設計の参考になる。
SkillSmith: Skill をオフライン・コンパイルして runtime に渡す「境界誘導型」スキル実行系
- 原題: SkillSmith: Compiling Agent Skills into Boundary-Guided Runtime Interfaces
- ソース: arxiv (cs.AI)
- シグナル: 2026-05-18 投稿
- 要点: 既存の skill 実装(生 skill 定義を毎回 reasoning loop に注入)は「不要な文脈の膨張」と「同一の skill 推論の繰り返し」で非効率という指摘から出発。SkillSmith はオフラインで skill を「fine-grained operational boundaries」に分解・コンパイルし、runtime には必要な要素だけを渡す。結果: トークン使用量 57.44% 削減、thinking iterations 42.99% 削減、実行 2.02x 高速化、強モデルで生成したコンパイル成果物を弱モデルで再利用可能。
- なぜ刺さるか: コア領域「Skill 設計」「progressive disclosure」「コンテキスト工学」直撃。Claude Code skills の「SKILL.md 全体をロードして都度 LLM が読む」モデルと正面から対立するアプローチで、skill を「ソース → ビルド成果物 → 実行時インターフェース」と捉え直す思想。Claude Skills は人間可読性を残す方向、SkillSmith は機械最適化を取りに行く方向。将来的に skill のビルドステップが標準化される可能性を予感させる。
SaaS-Bench: 実 SaaS 23本でコンピュータ使用エージェントを評価——end-to-end 完了率 4% 未満
- 原題: SaaS-Bench: Can Computer-Use Agents Leverage Real-World SaaS to Solve Professional Workflows?
- ソース: arxiv (cs.AI)
- シグナル: 2026-05-18 投稿
- 要点: 6職種ドメイン × 23 SaaS プラットフォーム × 106タスクの professional workflow ベンチ。OSWorld や AgentBench のような隔離環境ではなく deployable な実 SaaS を相手にし、dynamic state / cross-app coordination / 長期依存を強制する。重み付き verification checkpoint で部分完了も評価。最強の CUA でも end-to-end 4% 未満しか完了せず、planning / state tracking / cross-app context maintenance / error recovery のいずれにも大きなギャップがあることを露呈。
- なぜ刺さるか: コア領域「LLM 評価・解釈可能性(特に harness が評価対象に入るベンチ)」「長期タスクエージェント設計」直撃。「4%未満」という数字は CUA を巡る誇大表現に対する強い反証材料。逆に言えば harness 側の伸びしろがそのままこのギャップで、HAL/Meta-Harness 系の評価対象として今後参照されそう。
★★ 関連
- Qwen 3.7 Preview(Alibaba) — Alibaba_Qwen 公式アカウントが Qwen 3.7 Preview を告知。ただし 5/18 時点ではチャット UI に選択肢が出ただけで、open-weights や公式モデルカードは未公開。3.6-Max-Preview が SWE-bench Pro / Terminal-Bench 2.0 等で首位を取った直後のロードマップ宣言の側面が強い。(hackernews, 170 points / 63 comments)
- Files.md — Obsidian のオープンソース代替 — ローカルファースト+PWA で
.mdファイルをそのまま保存、Telegram bot 経由のクイックキャプチャ付き。Obsidian の機能膨張に対するミニマル路線の主張(“restrictions foster creativity”)。Ideaverse 運用の機能要件を逆照射する参考。(hackernews, 453 points / 243 comments) - SDOF: Multi-Agent Orchestration を State Machine として扱う — LangChain/LangGraph/CrewAI は graph-based だが業務プロセスの stage 制約を強制しないという問題提起。GRPO で学習した Intent Router + GoalStage 有限オートマトン Dispatcher の二層構成で alignment tax を抑制。Strict Phase-Gating の実装系。(arxiv cs.AI, 2026-05-18)
- FORGE: 重み更新なしのエージェント記憶を「集団進化」で育てる — Reflexion 型内ループの上に集団選抜層を被せ、失敗トラジェクトリを Rules / few-shot demo に変換して prompt-injected memory として育てる。distillation 不要、同一 LLM 内で完結。長期タスク用 memory 系の “first draft” 寄りパターン。(arxiv cs.AI, 2026-05-18)
- DimMem: 長期メモリを atomic typed unit に正規化する — 生対話の高コストとフラット要約の構造喪失の中間解として、time / location / reason / purpose / keywords 等の固定フィールドを持つ atomic memory unit を提案。memory schema を明示する立場で、structured note-taking の延長として読める。(arxiv cs.CL, 2026-05-18)
- Context Pruning for Coding Agents(多基準潜在推論) — コーディングエージェントはトークン予算の大半をリポジトリ読みに使うが大半が無関係、という前提。既存の単一目的 CRF プルーナーが contiguous span と sparse 構造行を同時に扱えないボトルネックを指摘し、複数 rubric の潜在推論で分離。コンテキスト工学のローカル最適化系。(arxiv cs.AI, 2026-05-18)
- AgentStop: ローカル AI エージェントの早期終了で省電力化 — コンシューマデバイス上のローカルエージェントが消費する電力に注目し、タスク中の早期終了判定を入れる。METR 系の長期タスク早期停止問題の “省電力” 側からの定式化として読める。(arxiv cs.LG, 2026-05-18)
★ 雑学
- Git の —author フラグで AI ボットスパムを止めた — GitHub 上で AI 生成スパム PR を識別するのに、コミットの
--authorメタデータが使えるという小ネタ。(hackernews, 339 points / 167 comments) - 音声 AI システムは”聞こえない”音響攻撃に脆弱 — 人間には聞こえない帯域の信号で音声 AI を操作できるという IEEE Spectrum 記事。Mythos/Glasswing と同日に出てきたのが象徴的。(hackernews, 98 points / 27 comments)
メタ情報
- 候補総数: HN 12 / Simon Willison 2(うち AI 関連 0、鳥観察と NHS のみ)/ Anthropic 1(48h以内)/ arXiv 143(キーワードスコア ≥2 で絞り込み後)= 約 158
- 採択: ★★★ 6 / ★★ 7 / ★ 2
- 失敗ソース: reddit(old.reddit.com / www.reddit.com / np.reddit.com いずれも Blocked ページ 1.5KB を返す。User-Agent を Mozilla/Googlebot/カスタムに変えても同様。本環境からのアクセス遮断と判断)
- 除外理由の傾向:
- Anthropic 法廷ニュース(“Elon Musk lost lawsuit against Sam Altman”)はゴシップ寄りで除外
- “Garry Tan accused me” 系メディア政治ネタは除外
- “Iran Bitcoin-backed insurance” は暗号通貨領域につき除外
- Simon Willison の鳥観察エントリ(Glaucous-winged Gull 他)はトピック外
- arXiv は cross-list / replace を除外、コア領域キーワードスコア 2 未満を除外
⬆ AI Trends へ戻る