このノートについて

自動生成されたAIトレンドフィード。★★★項目で永続化したいものは AI Trends MOC 経由で Atlas に昇格する。

2026-04-28 AIトレンド

今日のサマリー

今日は「ハーネスとモデルの分離」をめぐる話題が複数の角度から立ち上がっている。HNでは個人開発のOSSエージェントがGemini-3-flash-previewでTerminalBench首位を取り、投稿者自身が “harness matters” と総括。OpenAIは公式に SWE-Bench Verified を評価から外す宣言を出し、ベンチマーク・ハーネスの組み合わせがいかに数字を歪めるかを認めた。arXivでは long-horizon エージェントのメモリ層(Memanto)、self-correction を制御工学として診断する論文、RLVRの推論連鎖が因果的に効いていないことを示す論文と、ハーネス内部構造への解像度を上げる仕事が同時多発。モデル側は GPT-5.5 の prompting guide が出て「過去のプロンプトを引き継ぐな」と明言、DeepSeek V4 が 1M コンテキスト + フロンティア級性能を破壊的価格で出してきた。今日全体では「派手な新モデル」より「モデルの周りで何を組むか」がメインディッシュ。

★★★ 注目

OSS自作エージェント、Gemini-3-flash-previewでTerminalBench首位(Show HN)

  • 原題: Show HN: OSS Agent I built topped the TerminalBench on Gemini-3-flash-preview
  • ソース: hackernews
  • シグナル: points=173, comments=64
  • 要点: 個人開発のOSSエージェント dirac が、Gemini-3-flash-preview で TerminalBench 2.0 で 65.2% を達成。Googleの公式ハーネスでの 47.8%、現状トップのクローズドソース Junie CLI の 64.3% を上回った。AGENTS.md/SKILLS.md による cheating 報告が増えている中、投稿者は明確に「リーダーボード準拠で動かし、リソースやタイムアウトの改変なし」と申告。本人の感想が刺さる: “It is astounding how much the harness matters.”
  • なぜ刺さるか: 「Agent = Model + Harness」の harness 側が、同一モデルでの上下幅を 17 ポイント以上動かすことを単一の事例で見せている。HaaS / メタハーネス設計の議論を裏打ちする実証データであり、自分のサブエージェント・パイプライン設計の改善 ROI を見直す材料になる。

OpenAI、SWE-Bench Verifiedの評価をやめると公式宣言

  • 原題: Confirmed: SWE Bench is now a benchmaxxed benchmark
  • ソース: reddit (r/LocalLLaMA)
  • シグナル: score=438, comments=102
  • 要点: OpenAIが、SWE-Bench Verifiedを公式の評価対象から外すと宣言。理由はベンチマーク自体が「benchmaxx」されており、モデルの実力差ではなくハーネスの最適化や訓練データの混入によって数字が動く状態になったため。代わりに別の評価軸へ移行するとしている。コミュニティ側はかねてからエージェント周辺ベンチマークの cheating(debugml.github.io/cheating-agents/ など)を指摘してきたが、フロンティアラボ自身が「もうこのベンチは指標にならない」と認めた格好。
  • 要点: 評価対象がモデル単体ではなく Model + Harness の組み合わせになった結果、ベンチマーク数字の意味が揺らいでいる。OpenAI のような大手が「降りる」のは、HAL や Meta-Harness 系のように評価対象に harness を含めるベンチマーク設計への移行を加速させる。
  • なぜ刺さるか: LLM評価・ベンチマーク領域の核心。プロファイルの「ベンチマーク(特に harness が評価対象に入るもの)」に直撃。次に何が “信用できるベンチ” になるかは、自分のエージェント設計の指針にも直結する。

GPT-5.5 prompting guide ―「過去のプロンプトを引き継ぐな」

  • 原題: GPT-5.5 prompting guide
  • ソース: simon-willison
  • シグナル: 公式ガイド + Simon Willisonの解説
  • 要点: GPT-5.5 リリースに合わせ OpenAI が公式 prompting guide を公開。注目すべきは “Treat it as a new model family to tune for, not a drop-in replacement for gpt-5.2 or gpt-5.4. Begin migration with a fresh baseline instead of carrying over every instruction from an older prompt stack.” という強い指示。さらに、長時間思考するアプリのために「ツール呼び出しの前に1〜2文のステータス更新を出せ」というパターンが明文化された。Codex内蔵の openai-docs skill には migrate this project to gpt-5.5 で旧プロンプトを書き換える upgrade-guide が含まれる。
  • なぜ刺さるか: モデルが skill 経由で「自分自身の更新作業」を支援する流れが具体化している。Anthropic の Skills 設計と同じ progressive disclosure を OpenAI 側も取り入れた格好で、自分の Ideaverse + Claude Code skill 群の運用に直接転用できる発想(特に「最小プロンプトから始めて徐々に足す」方針)。

DeepSeek V4 Pro / Flash ― ほぼフロンティア性能を一桁安く

  • 原題: DeepSeek V4 - almost on the frontier, a fraction of the price
  • ソース: simon-willison
  • シグナル: Simon Willisonがpelican-on-bicycle benchmarkで実走確認
  • 要点: DeepSeek V4-Pro(1.6T total / 49B active、MoE)と V4-Flash(284B / 13B active)が同時公開。両者とも 1M トークンコンテキスト・MITライセンスの open weights。価格は Pro が 3.48(in/out per Mtok)、Flash が 0.28 で、Gemini 3.1 Pro (12) や Claude Sonnet 4.6 (15) を大きく下回る。論文では 1M コンテキスト時に V3.2 比で FLOPs が 27%、KV cache が 10% に圧縮されたと主張。Pro は現状 最大の open weights MoE(Kimi K2.6 1.1T を超える)。
  • なぜ刺さるか: 「効率化されたMoE × 安価な長文コンテキスト」の組み合わせは、ハーネス側で従来コスト的に諦めていたパターン(多段 subagent + 全文渡し、reflection loop の長期運用など)を実用域に押し上げる。“Frontier 性能は手段にすぎず、効率が新しい主戦場” という流れの典型例。

Memanto: 型付きセマンティックメモリ ― knowledge graphなしでlong-horizon agentメモリを高精度化

  • 原題: Memanto: Typed Semantic Memory with Information-Theoretic Retrieval for Long-Horizon Agents
  • ソース: arxiv (cs.AI)
  • シグナル: arXiv 2604.22085
  • 要点: 既存の long-horizon エージェントメモリは hybrid semantic graph に依存しており、ingestion 時の LLM 介在 entity extraction やマルチクエリ retrieval pipeline で重い。Memanto は (1) 13カテゴリの事前定義 typed memory schema、(2) 自動 conflict resolution、(3) temporal versioning に絞り、Moorcheh 社の Information-Theoretic Search エンジンで「indexなしの semantic DB、サブ90msで決定論的 retrieval」を実現。LongMemEval 89.8%、LoCoMo 87.1% で SOTA。シングルクエリ retrieval、ingestionコストゼロを謳う。
  • なぜ刺さるか: 「メモリを knowledge graph で構造化する vs. シンプルな typed schema + 強力な retrieval」というトレードオフは、context engineering の根本論点。AgentFold / Context Folding 系と並べて読むと、長期エージェントが「外部記憶をどう型付けするか」の設計肢が出揃ってきた感がある。Ideaverse 自体が typed schema (ACE/Atlas/Dots等) なので、構造的な親和性が高い。

★★ 関連

★ 雑学

メタ情報

  • 候補総数: 約 60 件(HN front page 13、Simon Willison 6、arXiv cs.AI/cs.CL 約 30、Reddit 4サブ約 40 のうちスコア足切り後 11)
  • 採択: ★★★ 5 / ★★ 7 / ★ 2
  • 失敗ソース: Anthropic公式ブログ(rss.xmlがNot Foundを返した。Next.js移行で URL が変わった可能性あり、要再調査)
  • 除外理由の傾向: ビジネス系(MS/OpenAI partnership解消、Mercor breach等)、医療AI論文の臨床応用ものの多数、画像/動画 image gen 雑談、暗号通貨系(今日は実質ゼロ)

AI Trends へ戻る