このノートについて
自動生成されたAIトレンドフィード。★★★項目で永続化したいものは AI Trends MOC 経由で Atlas に昇格する。
2026-04-28 AIトレンド
今日のサマリー
今日は「ハーネスとモデルの分離」をめぐる話題が複数の角度から立ち上がっている。HNでは個人開発のOSSエージェントがGemini-3-flash-previewでTerminalBench首位を取り、投稿者自身が “harness matters” と総括。OpenAIは公式に SWE-Bench Verified を評価から外す宣言を出し、ベンチマーク・ハーネスの組み合わせがいかに数字を歪めるかを認めた。arXivでは long-horizon エージェントのメモリ層(Memanto)、self-correction を制御工学として診断する論文、RLVRの推論連鎖が因果的に効いていないことを示す論文と、ハーネス内部構造への解像度を上げる仕事が同時多発。モデル側は GPT-5.5 の prompting guide が出て「過去のプロンプトを引き継ぐな」と明言、DeepSeek V4 が 1M コンテキスト + フロンティア級性能を破壊的価格で出してきた。今日全体では「派手な新モデル」より「モデルの周りで何を組むか」がメインディッシュ。
★★★ 注目
OSS自作エージェント、Gemini-3-flash-previewでTerminalBench首位(Show HN)
- 原題: Show HN: OSS Agent I built topped the TerminalBench on Gemini-3-flash-preview
- ソース: hackernews
- シグナル: points=173, comments=64
- 要点: 個人開発のOSSエージェント
diracが、Gemini-3-flash-preview で TerminalBench 2.0 で 65.2% を達成。Googleの公式ハーネスでの 47.8%、現状トップのクローズドソース Junie CLI の 64.3% を上回った。AGENTS.md/SKILLS.md による cheating 報告が増えている中、投稿者は明確に「リーダーボード準拠で動かし、リソースやタイムアウトの改変なし」と申告。本人の感想が刺さる: “It is astounding how much the harness matters.” - なぜ刺さるか: 「Agent = Model + Harness」の harness 側が、同一モデルでの上下幅を 17 ポイント以上動かすことを単一の事例で見せている。HaaS / メタハーネス設計の議論を裏打ちする実証データであり、自分のサブエージェント・パイプライン設計の改善 ROI を見直す材料になる。
OpenAI、SWE-Bench Verifiedの評価をやめると公式宣言
- 原題: Confirmed: SWE Bench is now a benchmaxxed benchmark
- ソース: reddit (r/LocalLLaMA)
- シグナル: score=438, comments=102
- 要点: OpenAIが、SWE-Bench Verifiedを公式の評価対象から外すと宣言。理由はベンチマーク自体が「benchmaxx」されており、モデルの実力差ではなくハーネスの最適化や訓練データの混入によって数字が動く状態になったため。代わりに別の評価軸へ移行するとしている。コミュニティ側はかねてからエージェント周辺ベンチマークの cheating(debugml.github.io/cheating-agents/ など)を指摘してきたが、フロンティアラボ自身が「もうこのベンチは指標にならない」と認めた格好。
- 要点: 評価対象がモデル単体ではなく Model + Harness の組み合わせになった結果、ベンチマーク数字の意味が揺らいでいる。OpenAI のような大手が「降りる」のは、HAL や Meta-Harness 系のように評価対象に harness を含めるベンチマーク設計への移行を加速させる。
- なぜ刺さるか: LLM評価・ベンチマーク領域の核心。プロファイルの「ベンチマーク(特に harness が評価対象に入るもの)」に直撃。次に何が “信用できるベンチ” になるかは、自分のエージェント設計の指針にも直結する。
GPT-5.5 prompting guide ―「過去のプロンプトを引き継ぐな」
- 原題: GPT-5.5 prompting guide
- ソース: simon-willison
- シグナル: 公式ガイド + Simon Willisonの解説
- 要点: GPT-5.5 リリースに合わせ OpenAI が公式 prompting guide を公開。注目すべきは “Treat it as a new model family to tune for, not a drop-in replacement for gpt-5.2 or gpt-5.4. Begin migration with a fresh baseline instead of carrying over every instruction from an older prompt stack.” という強い指示。さらに、長時間思考するアプリのために「ツール呼び出しの前に1〜2文のステータス更新を出せ」というパターンが明文化された。Codex内蔵の
openai-docsskill にはmigrate this project to gpt-5.5で旧プロンプトを書き換える upgrade-guide が含まれる。 - なぜ刺さるか: モデルが skill 経由で「自分自身の更新作業」を支援する流れが具体化している。Anthropic の Skills 設計と同じ progressive disclosure を OpenAI 側も取り入れた格好で、自分の Ideaverse + Claude Code skill 群の運用に直接転用できる発想(特に「最小プロンプトから始めて徐々に足す」方針)。
DeepSeek V4 Pro / Flash ― ほぼフロンティア性能を一桁安く
- 原題: DeepSeek V4 - almost on the frontier, a fraction of the price
- ソース: simon-willison
- シグナル: Simon Willisonがpelican-on-bicycle benchmarkで実走確認
- 要点: DeepSeek V4-Pro(1.6T total / 49B active、MoE)と V4-Flash(284B / 13B active)が同時公開。両者とも 1M トークンコンテキスト・MITライセンスの open weights。価格は Pro が 3.48(in/out per Mtok)、Flash が 0.28 で、Gemini 3.1 Pro (12) や Claude Sonnet 4.6 (15) を大きく下回る。論文では 1M コンテキスト時に V3.2 比で FLOPs が 27%、KV cache が 10% に圧縮されたと主張。Pro は現状 最大の open weights MoE(Kimi K2.6 1.1T を超える)。
- なぜ刺さるか: 「効率化されたMoE × 安価な長文コンテキスト」の組み合わせは、ハーネス側で従来コスト的に諦めていたパターン(多段 subagent + 全文渡し、reflection loop の長期運用など)を実用域に押し上げる。“Frontier 性能は手段にすぎず、効率が新しい主戦場” という流れの典型例。
Memanto: 型付きセマンティックメモリ ― knowledge graphなしでlong-horizon agentメモリを高精度化
- 原題: Memanto: Typed Semantic Memory with Information-Theoretic Retrieval for Long-Horizon Agents
- ソース: arxiv (cs.AI)
- シグナル: arXiv 2604.22085
- 要点: 既存の long-horizon エージェントメモリは hybrid semantic graph に依存しており、ingestion 時の LLM 介在 entity extraction やマルチクエリ retrieval pipeline で重い。Memanto は (1) 13カテゴリの事前定義 typed memory schema、(2) 自動 conflict resolution、(3) temporal versioning に絞り、Moorcheh 社の Information-Theoretic Search エンジンで「indexなしの semantic DB、サブ90msで決定論的 retrieval」を実現。LongMemEval 89.8%、LoCoMo 87.1% で SOTA。シングルクエリ retrieval、ingestionコストゼロを謳う。
- なぜ刺さるか: 「メモリを knowledge graph で構造化する vs. シンプルな typed schema + 強力な retrieval」というトレードオフは、context engineering の根本論点。AgentFold / Context Folding 系と並べて読むと、長期エージェントが「外部記憶をどう型付けするか」の設計肢が出揃ってきた感がある。Ideaverse 自体が typed schema (ACE/Atlas/Dots等) なので、構造的な親和性が高い。
★★ 関連
- GPT-5.5 で Codex とメインモデルが統合 ― もう独立した coding line はない — OpenAI の Romain Huet が “GPT-5.5 takes this further, with strong gains in agentic coding, computer use, and any task on a computer” と発言、Codex モデル分岐の終了を確定。Anthropic 側の Sonnet/Opus 統合方針と並走。(simon-willison)
- Self-correctionは制御工学 ― EIRが 0.5% を超えると精度が落ちる — 自己訂正をフィードバックループとして定式化し、ECR/EIR > Acc/(1-Acc) という診断式を提示。7モデル × 3データセットで EIR の near-zero しきい値を実証。Claude Opus 4.6 と o3-mini は非劣化、GPT-5 は -1.8pp の劣化。verify-first prompt で改善可能。(arxiv, cs.AI)
- Outcome Rewards Do Not Guarantee Verifiable Reasoning — RLVR で訓練した reasoning chain が実際にはモデルの最終回答に因果的に効いていないことが多いという批判。CIR (Causal Importance) と SR (Sufficiency) という2つの指標を提案、joint reward で改善できることも示す。(arxiv, cs.CL)
- Background Temperature in LLMs ― T=0でも実装由来の揺らぎがある — Thinking Machines Lab の non-determinism 指摘を理論化。バッチサイズ・カーネル・浮動小数の非結合性が生む「実効温度」を背景温度 T_bg として定義し、推定プロトコルを提案。再現性・評価・デプロイ全部に効く話。TMLR 2026掲載。(arxiv)
- Read the Paper, Write the Code ― 論文の “methods” 節だけからエージェントが結果を再現できるか — コードや結果を見せずに、48本の社会科学論文の手法記述だけから再実装させ、cell-level で比較。失敗の原因がエージェント側か論文記述の不足か切り分ける。エージェント科学の baseline。(arxiv)
- OneManCompany ― エージェントを “Talent” として組織化する — skill/tool/runtime を Talent という portable identity に閉じ込め、Talent Market から動的に recruit。Explore-Execute-Review tree search で組織的意思決定を回す。PRDBench で 84.67%、SOTA を 15.48pp 上回る。multi-agent organisation 系の最新試み。(arxiv)
- r/ClaudeAI: “Drop your best Claude skills in here!” — Claude Codeのskill共有スレ。コミュニティが何を skill 化しているかの生サンプル。命名規則・description設計・hookとの組み合わせの実例を観察できる。(reddit, score=163)
★ 雑学
- “The people do not yearn for automation”(Nilay Patel) — “software brain” を持つ層と一般層の断絶を論じたエッセイ。AI が嫌われるのは flatten するからだという。Simonが「長く考え続けることになりそう」と書いており、PKM 文脈での AI の位置取りに刺さる。(simon-willison)
- r/ClaudeAI: “Why AI is erasing your mental map of your projects” — AI支援開発で「自分のコードのメンタルモデル」が失われていく現象についての投稿。context rot をユーザー認知側から論じた小品。(reddit, score=89)
メタ情報
- 候補総数: 約 60 件(HN front page 13、Simon Willison 6、arXiv cs.AI/cs.CL 約 30、Reddit 4サブ約 40 のうちスコア足切り後 11)
- 採択: ★★★ 5 / ★★ 7 / ★ 2
- 失敗ソース: Anthropic公式ブログ(rss.xmlがNot Foundを返した。Next.js移行で URL が変わった可能性あり、要再調査)
- 除外理由の傾向: ビジネス系(MS/OpenAI partnership解消、Mercor breach等)、医療AI論文の臨床応用ものの多数、画像/動画 image gen 雑談、暗号通貨系(今日は実質ゼロ)
⬆ AI Trends へ戻る