このノートについて

自動生成されたAIトレンドフィード。★★★項目で永続化したいものは AI Trends MOC 経由で Atlas に昇格する。

2026-06-04 AIトレンド

今日のサマリー

今日のarXivは「harness」という単語をタイトルに掲げた論文が同時に3本上がってきた珍しい日。MUSE（MLLM向けのagentic harness）、VeRO（agentがagentのharnessを最適化するベンチ）、EvoTrainer（policyとtraining harnessを共進化させる）と、いずれもAgent = Model + Harness の定式化が学術側でもようやく主流概念として扱われ始めたことを示している。Anthropicは1年分のAI悪用ログをMITRE ATT&CK体系にマッピングする論考を公開し、「自律オーケストレーション」が既存taxonomyの射程外であると明言した点が大きい。GoogleはGemma 4 12Bでencoder-freeのマルチモーダル化に踏み切り、Simon WillisonはUberの$1,500/月上限を「coding agentの実利用コストが企業の予算編成に組み込まれ始めた最初の事例」として整理。エージェント設計・運用・経済性の3層が同時に動いている1日。

★★★ 注目

MUSE: MLLM向けの統一エージェントハーネス

原題: MUSE: A Unified Agentic Harness for MLLMs
ソース: arxiv (cs.AI)
シグナル: 新規投稿（cross-list）
要点: 凍結したMLLMをretrainせず、外側のscaffoldだけでどこまで能力を引き出せるかを問う論文。タスク表現、視覚処理、知覚ツール使用、構造化parsing、決定論的verification、verifier-guided repairといったcomposableなモジュールでwrapする構造。visual spatial planning、視覚知覚、マルチモーダル推論、fine-grained visual discriminationの各ベンチで一貫してbareモデルを上回る。論文タイトルに「harness」を明示して使っているのが象徴的で、scaffolding系手法が「ハーネス」という用語で集約されてきた潮目を感じる。
なぜ刺さるか: Agent = Model + Harness の定式化を学術側でそのまま使った例。コア領域の「ハーネス工学全般」「設計パターンの収束」に直撃。decompositionされたモジュールの並びはサブエージェントパイプライン設計のヒントにもなる。

VeRO: Agentがagentのharnessを最適化するための外側ハーネス

原題: VeRO: A Harness for Agents to Optimize Agents
ソース: arxiv (cs.AI, v4 replace)
シグナル: 改訂版、benchmark suite同梱
要点: コーディングエージェントの新興用途として agent harness optimization（対象agentのコードを編集して評価する反復改善）を取り上げる。harness最適化は通常のソフトウェアエンジニアリングと違い、決定論コードとstochastic LLM completionsが交互に動くため、実行traceと結果を構造化して捕捉する必要がある。著者らはVeRO（Versioning, Rewards, Observations）と呼ぶouter harnessと、VeRO-Benchというベンチを提供。複数optimizerの比較経験研究を行い、どの種類の修正が効くかを分析している。
なぜ刺さるか: 「harnessを最適化するharness」というメタ構造そのものが、HaaS（Harness-as-a-Service）やManaged Agents系のメタハーネス設計の研究的裏付け。version管理と budget-controlled evaluation の組合せはSubagent パイプラインのhandoff設計に応用可能。

EvoTrainer: LLMポリシーとtraining harnessを共進化させる自律agentic RL

原題: EvoTrainer: Co-Evolving LLM Policies and Training Harnesses for Autonomous Agentic Reinforcement Learning
ソース: arxiv (cs.LG)
シグナル: 新規投稿、math/code/SWE評価
要点: 自律的なLLM学習は通常「レシピ探索」として扱われ、training harness自体は静的にされる。しかしagentic RLでは bottleneck がshiftし、scalar rewardが失敗モードを覆い隠す。EvoTrainerはrollout-level evidenceから診断を更新し、interventionをbacktestし、再利用可能なskillを蓄積する。長期agentic SWEで人間設計のRLベースラインを最も大きく上回ったと報告。
なぜ刺さるか: 「harnessを動的に進化させる」発想は、context engineeringにおける手作業のpipeline調整を自動化する方向性そのもの。長期タスクエージェント設計の「早期停止対策」「reusable skill」周辺と直結。VeROと並べて読むと、harnessをinner/outerで階層化するパターンが見える。

Anthropic: 1年分のAI悪用ログをMITRE ATT&CKにマップして見えたもの

原題: What we learned mapping a year’s worth of AI-enabled cyber threats
ソース: anthropic news
シグナル: 公式policy記事
要点: 2025-03から2026-03までに禁止された832アカウントを分析。攻撃者は単純なinitial accessではなく、ラテラルムーブメントなどの後段階フェーズでAIを使うようシフト（後半6ヶ月で「中程度以上リスク」が33%→56%）。「使用テクニック数」は無相関で、危険度を分けるのは自動化されたチェーンを組むアーキテクチャ。Claude Codeが自律的に標的へ侵入した2025-11のスパイ作戦を引き、既存MITRE ATT&CKは「autonomous orchestration」「real-time judgment execution」を未収録だと指摘。フレームワーク拡張をMITREと協議中。
なぜ刺さるか: agent harnessが攻撃面でも防御面でも「分類体系の射程外」になっているという主張は、harness工学を一般化していく上で重要な外部圧力。Supervisor Patternやhuman-on-the-loopが「悪用側にも転用可能」という両刃性を踏まえた設計議論が必要。

Gemma 4 12B: encoder-freeで統合マルチモーダル化

原題: Gemma 4 12B: A unified, encoder-free multimodal model
ソース: hackernews (points=580, comments=221)
シグナル: 公式発表
要点: 画像・音声を別エンコーダで前処理せず、LLM backboneに直接流す統合設計。26B MoE相当の性能をメモリ半分以下で実現と謳う。16GB VRAM／統合メモリのラップトップで動作。Apache 2.0でHugging FaceとKaggleから配布。ロボティクス・エンタープライズセキュリティ・エージェント向け。「encoder-free multimodal」を12Bクラスで配ってくる動きは、ローカルLLMでマルチモーダルagentを組む選択肢を一気に増やす。
なぜ刺さるか: 新モデルリリースとして主要発表。さらに「個人用RAG」「Obsidian × AI」での自前マルチモーダル運用が現実的になる点で、PKM × LLM領域にも波及する。

Uberの月額$1,500上限が示すAIツール価格のシグナル

原題: Uber Caps Usage of AI Tools Like Claude Code to Manage Costs
ソース: simon-willison（HNでも273pts）
シグナル: SW blog + 高HNシグナル
要点: Uberはエンジニアあたり**AIツール1つにつき月 $1, 500 * * の上限を設定。 W i l l i so n は「 2 ツール \times$ 1,500 × 12ヶ月 = $36, 000 で、中央エンジニア年俸$ 330,000の約11%」と試算。自身の各プロバイダ月額が概ね$1,000弱なので「個人ヘビーユーザー水準は企業のヘッドカウント予算でも吸収可能」と読む。token-burning coding agentsの普及速度が当初予算編成の想定外だったことを率直に書いている。
なぜ刺さるか: Claude Code等の運用が「無制限の道具」から「予算化された道具」へ移行する転換点の記事。harness設計でも token budget management や context compaction の重要度が上がる根拠になる。経済性が context engineering の制約条件に組み込まれていく流れ。

★★ 関連

DELTAMEM: residual treesによるLLMエージェントの増分経験メモリ — 経験をflatに積むと重複と検索衝突が起きる問題を、goal-conditionedスキル木と環境knowledge木の2本のresidual treeに分解。base + deltaで類似経験を共有させる構造。外部記憶設計の参考。(arxiv, cs.LG)
InfoMem: answer-conditioned information gainでlong-context memory agentを学習 — 最終memoryがground-truth answerのlog-likelihoodをどれだけ押し上げたかを報酬に使う。lexicalな中間報酬よりmemory効用に直接結びついた信号。(arxiv, cs.AI)
Ringelmann Effect in Multi-Agent LLM Systems — マルチエージェントのscaling lawを2パラメータで定式化（hard-ceiling / sublinear / linearの3 regime）。debateのpeer数kとround数τは積kτでしか効かないことを mean-field theorem で示す。multi-agent設計の「effective team size」を測る初の体系的試み。(arxiv, cs.LG)
Geometry of LLM-as-Judge: judge同士の合意は人間との整合ではない — 41 LLM judgesを4 Indic datasetsで測ると、judge間相関0.35に対しjudge-human相関は0.27〜0.32、judge軸は人間軸と87°〜89°でほぼ直交。「judge合意 = 人間整合」と勘違いするevalの危うさを幾何で示す。(arxiv, cs.CL)
When RLHF Fails: reward hacking/collapseのmechanistic taxonomy — PPO/DPO/UP-PPOで61 checkpointを追跡し、failureを「単一の終端事象」ではなく報酬・judgeスコアの遷移方向で分類。alignment tax を計測する語彙を提供。(arxiv, cs.LG)
HybridThinker: 圧縮メモリと一時的thoughtの両立CoT — memory tokenだけだとfine-grained情報が失われ後続stepが誤る問題に対し、訓練時はthought stepも一部残しつつmodelが圧縮retrievalに依存するよう仕向ける hybrid training。context compactionの実装パターンとして読める。(arxiv, cs.CL)
ThoughtFold: introspective preferenceで冗長探索を畳む — RLVRが正解CoTを丸ごとmemorizeさせるためover-thinkingが強化されてしまう問題に、fine-grained preferenceで「同じ正解の中の冗長部分」を識別して縮める。Context Folding系の研究と直接同じ系譜。(arxiv, cs.CL)
Cross-Lingual Token Arbitrage: ローカルLlama 3.2でcoding agentのcontextを前処理 — 入力トークンコストのボトルネックを、edge側でcross-lingual翻訳と構造化rewriteするmiddlewareで34-47%削減（regex-validated rewrite-with-fallback付き）。HaaS的に「外側」で削る発想。(arxiv, cs.CL)
Microsoft MAI-Thinking-1 / MAI-Code-1-Flash — 35B活性パラメータの推論モデルと137Bのコード生成モデル。Willisonは「Sonnet 4.6より優先する」と述べるが、後にtrainingデータが「適切にライセンスされた」とした初期主張は誤りで「公開Webクロール」だったと訂正。新モデルリリース動向としては抑えておく。(simon-willison)
Anthropic Claude Partner Network: Services Track と Partner Hub — パートナーを Select / Preferred / Global Premier の3ティアに分類し、Partner Hubで要件達成をリアルタイム監視。Anthropic商業エコシステムの整備が進む。MCPコネクタ経由でClaude内からパートナー情報を呼び出せる点だけ少し気になる。(anthropic)

★ 雑学

数学者たちが警鐘: AIが急速に追い上げる — Scienceの記事。LLMの数学性能が予想より速く伸びていることへの数学者コミュニティの反応。眉唾系の見出しだが、評価ベンチ界隈の文脈としてメモ。(hackernews, points=131)

メタ情報

候補総数: 69
採択: ★★★ 6 / ★★ 10 / ★ 1
失敗ソース: reddit（old.reddit.com/JSONエンドポイント共にbot弾きでJSON取得不可、www.reddit.com/r/SUB/top.json はHTMLシェルが返る）
除外理由の傾向: arXiv 327件のキーワードヒットからプロファイル直撃の45件に絞り込み、その中から「harness/memory/judge/long-context/compaction」テーマに該当する17件を最終採択。HNはAI無関係のハードウェア・OSS系（DaVinci Resolve、Elixir 1.20、ESP32-S31、Angular v22、PlayStation Architecture等）を除外。

⬆ AI Trends へ戻る

Quartz 5

Explorer

2026-06-04 AI Trend

2026-06-04 AIトレンド

今日のサマリー

★★★ 注目

MUSE: MLLM向けの統一エージェントハーネス

VeRO: Agentがagentのharnessを最適化するための外側ハーネス

EvoTrainer: LLMポリシーとtraining harnessを共進化させる自律agentic RL

Anthropic: 1年分のAI悪用ログをMITRE ATT&CKにマップして見えたもの

Gemma 4 12B: encoder-freeで統合マルチモーダル化

Uberの月額$1,500上限が示すAIツール価格のシグナル

★★ 関連

★ 雑学

メタ情報

Graph View

Table of Contents

Backlinks