Fragments of verbose memory

冗長な記憶の断片 - Web技術のメモをほぼ毎日更新

Jan 1, 2026 - 日記

AI業界2025年総括: DeepSeekショックから始まった激動の1年

AI業界2025年総括: DeepSeekショックから始まった激動の1年 cover image

2025年のAI 業界を振り返ると、1月のDeepSeekショックに始まり、推論モデル競争の激化、そして「Vibe Coding」に象徴される開発体験の変化がとても印象的でした。

ただ、いま(数カ月たった目線)で振り返ると、重要だったのは「新モデルが出た」事実そのものよりも、

  • それが何を当たり前に変えたのか
  • それがどんな実装・運用の形を定着させたのか

という“後から効いてくる変化”だった気がします。

本記事では、年表として便利なWikipedia(2025 in artificial intelligence )を軸にしつつ、OpenAI / Google DeepMind / Hugging Face / LangChain などの一次情報へのリンクを差し込みながら、月別に「結局どんな意味があったのか」まで含めて振り返ります。

1月:DeepSeekショックと「コスト神話」の崩壊

年末に振り返ると、1月のインパクトは「DeepSeekが出た」だけではなく、以降の競争軸を「巨大モデル発表」から推論能力・公開形態・実運用の速さへ押し上げたことでした。ここから先の一年は、モデルの名前より「推論がデフォルトであること」「ローカル/自前で回せること」がじわじわ重要になります。

1月20日:DeepSeek-R1(オープンソース推論モデル)の衝撃

2025年は、中国のAIスタートアップDeepSeek が公開した推論モデル DeepSeek-R1(Wikipedia: DeepSeek-R1 / GitHub: deepseek-ai/DeepSeek-R1 )から始まりました。

とくに話題になったのが「先端モデルには莫大な訓練費用が必須」という前提を揺さぶった点です。Reutersも、DeepSeekが短期間・低コストでモデルを構築したと主張していることを報じています(Reuters )。

1月:Alibaba Qwen(Qwen2.5-Max)

DeepSeekだけでなく、中国勢のモデル発表もこの時期から加速します。Alibabaは「Qwen2.5-Max」を公開しました(Qwen Blog: Qwen2.5-Max )。

1月下旬:DeepSeekの波及

DeepSeekの登場は、モデル開発の前提(コスト感・推論能力・公開の仕方)そのものに揺さぶりをかけ、以降の各社リリースのテンポを一段上げた印象があります。

1月31日:OpenAI o3-mini

OpenAIはコスト効率の良い推論モデル o3-mini を公開しました(OpenAI Model Release Notes: Introducing OpenAI o3-mini )。

2月:「Vibe Coding」と、調査エージェントの台頭

2月は「モデル性能」よりも、人間の作業の分解のされ方が変わり始めた月でした。年末に見ると、AIが“回答器”から「調べる」「まとめる」「次の一手を出す」方向へ寄り、以降の製品がエージェント前提で統合されていったことが効いています。

2月2日:「Vibe Coding」

Andrej Karpathyが「Vibe Coding」という言葉を提唱しました(Forbes: What Is Vibe Coding? )。

この概念が面白いのは、単なる「AI補完」ではなく、実装の中心が「コード」から「自然言語での意図表明」に寄っていく、というニュアンスが強い点です。

2月3日:ChatGPT Deep Research

ChatGPTに、ウェブを自律的に調査して引用付きレポートを作る機能が追加されました(Wikipedia: ChatGPT Deep Research )。

年末に振り返ると、ここで効いたのは「調査をする」能力そのものより、後のagent modeで見えてくるように“AIに任せる作業単位”が「質問」から「調査タスク」へ大きく広がった点です。

2月24日:GitHub Copilot agent mode(プレビュー)

VS Code Insidersで「Copilot agent mode」のプレビューが開始されました(VS Code Blog: Introducing GitHub Copilot agent mode )。

このリリースが面白いのは、単なる「コード補完の進化」ではなく、エージェントがワークスペース全体を理解し、ファイル編集・ターミナル実行・エラー検知までを自律的に回す方向へ踏み出した点です。

VS Codeチーム自身がこの機能を使って開発(セルフホスティング)しているのも特徴的で、「実際に使える」かどうかを自分たちで検証しながら改善していく姿勢が見えます。

2月27日:OpenAI GPT-4.5(研究プレビュー)

OpenAIはGPT-4.5を研究プレビューとして発表しました(OpenAI: Introducing GPT-4.5 )。

個人的には、この手のリリースは「世界が変わった」よりも、のちに当たり前になるエージェント統合や推論モデルの普及に向けた"品質の底上げ"として効いてくる印象があります。

3月:ロボティクスとGemini 2.5

3月は、LLM が画面の中だけで完結せず、現実世界の「手と目」へ接続される流れが見えた月です。ここで重要だったのはデモの派手さよりも、後半に増える“エージェントの実務化”が、最終的にUI/ロボット/検索/作業ツールに広がっていく前兆だった点です。

3月12日:Gemini Robotics

Google DeepMindはロボット向けにGemini 2.0ベースのモデルを発表しました(DeepMind: Gemini Robotics brings AI into the physical world )。

これが後から効いてくるのは「ロボットがすごい」より、エージェントが“手足”を持ったときに必要になる、安全な指示・環境理解・フィードバックの設計が一段リアルになった点です。

3月25日:Gemini 2.5

Googleは「Gemini 2.5」を発表しました(Google Blog: Gemini 2.5 )。

年末に見ると、この種の“考える系”モデルが示したのは性能差というより、以降のプロダクトが「推論するのが前提」のUIやワークフローへ寄っていくことでした。

4月:OpenAIの新世代推論(o3 / o4-mini)

4月のポイントは、推論モデルが「特別なモデル」から普段使いのデフォルトに降りてきたことです。同時にA2Aのような周辺規格が動き始め、年末に向けて「モデル→エージェント→周辺プロトコル/基盤」という順に主戦場が広がっていく流れが読み取れます。

4月7日:GitHub Copilot agent mode(一般提供・MCP対応)

2月にプレビュー開始したCopilot agent modeが、VS Code Stable全ユーザーに提供開始されました。同時にMCPサーバーとの連携も可能になり、エージェントが外部ツール(データベース、クラウドサービス等)と接続できるようになりました(VS Code Blog: Agent mode available to all users )。

ここで効いてきたのは「機能が増えた」だけでなく、MCPという標準プロトコルを通じて拡張性がオープンになった点です。年末に向けて、PlaywrightやGitHub、Azureなど各社がMCPサーバーを提供する流れが加速していきます。

4月16日:OpenAI o3 と o4-mini

OpenAIは推論モデル o3o4-mini を発表しました(OpenAI: Introducing OpenAI o3 and o4-mini )。

(個人的には)このあたりから「推論モデルは特別枠」ではなく、日常的なデフォルトになっていく流れが加速した印象があります。

4月:A2A(Agent-to-Agent Protocol)

Googleは、エージェント同士が安全に連携するためのオープンプロトコル「A2A(Agent-to-Agent Protocol)」を発表しました(Google Developers Blog: A2A — a new era of agent interoperability )。

Model Context Protocol (MCP)が「エージェントにツールやコンテキストを渡す」方向の標準化だとすると、A2Aは「エージェント同士をつなぐ」方向の話で、2025年が"エージェント時代の周辺規格"も動き始めた年だったことを象徴していると思います。

4月:Alibaba Qwen3

Alibabaは次世代モデル「Qwen3」を公開しました(Qwen Blog: Qwen3 )。

で、何が意味あったのかというと、年末に見るとポイントは2つです。

  • 中国勢の存在感が「DeepSeekの一発」ではなく、継続的なリリースで“選択肢”として定着した(= 特定ベンダ依存の前提が崩れる)
  • “汎用チャット”の競争ではなく、のちに7月のQwen3-Coderへ繋がるように、コーディング/エージェント寄りの実務ユースケースへ寄せたラインナップが見えた

このあたりから「強いモデルがある」より、「用途ごとに(国/企業をまたいで)選べる」状態が当たり前になってきたのが、2025年の変化だと思います。

5月:動画生成、コーディングエージェント、Claude 4

5月は「何が作れるか」が一段広がった月でした。コーディングがエージェント化し、動画/ UIといった“成果物”が前に出ることで、年末に向けては「コードを書く支援」より「作業を終わらせる支援」が中心になっていきます。

5月14日:AlphaEvolve / GPT-4.1

Google DeepMindはコーディングエージェント「AlphaEvolve」を発表しました(DeepMind: AlphaEvolve )。

ここでの転換点は「コードが書ける」より「探索し、検証し、改善する」プロセスをAIに委ねる方向が強まったことです。

同日、OpenAIはコーディングに強い「GPT-4.1」をChatGPTでも提供開始したとしています(OpenAI Model Release Notes: Releasing GPT-4.1 in ChatGPT )。

5月19日:VS Code AI機能のオープンソース化宣言

VS Codeチームは、GitHub Copilot Chat拡張機能をMITライセンスでオープンソース化する方針を発表しました(VS Code Blog: Open Source AI Editor )。

この決定の背景として挙げられているのが、

  • LLMの進化により「秘密のプロンプト戦略」の価値が薄れた
  • AI操作のUIパターンが共通化してきた
  • 拡張機能作者がソースコードなしで開発・デバッグするのが困難だった
  • データ収集の透明性への要求

という点で、2025年が「AIエディタもオープンで作る」方向へ舵を切った年だったことを象徴しています。

5月20日:Google Veo 3 / A.I. Mode

Google DeepMindは動画生成モデル Veo 3 を発表しました(Google Blog: generative media models at I/O 2025 )。

数カ月後の実感としては、生成AIの主戦場が「文章→コード→動画」へ広がったというより、成果物がリッチになるほど"レビュー可能な形で出す"こと(説明、根拠、編集可能性)がより重要になってきました。

Veo 3のインパクトとして「音声込みで生成される」点が大きく報じられています(CNBC )。

5月20日:Stitch(UIデザインとフロントエンド生成)

Google Labsの実験として、プロンプトや画像入力からUIデザインとフロントエンドコードを生成する「Stitch」が発表されました(Google Developers Blog: Introducing Stitch / stitch.withgoogle.com )。

コード生成が「関数を書く」から「画面を作って動かす」方向へ寄っていく中で、UIのラフ出し〜実装の往復を短縮する系のプロダクトが前に出てきたのは象徴的でした。

5月22日:Anthropic Claude 4(Opus 4 / Sonnet 4)

AnthropicはClaude 4を公開しました(Anthropic: Introducing Claude 4 / CNBC )。

ここで象徴的なのが「何時間も自律的に動ける」という語り口で、以降「エージェントの実用性」への期待値が大きく上がった印象があります。

6月:エージェントが「使い物」になる(音声・長考・制作の制御)

6月は、いくつもの機能が同時に積み上がって、エージェントが「賢い」から「任せられる」に寄った月でした。年末に見ると、この月の更新は“派手な発表”というより、

  • 長考モデルをより安定して当てる(o3-pro)
  • 入口を広げる(音声)
  • 生成を“狙って作る”ための制御プリミティブを整える(動画のSTD/PROやstart/end frame)

という形で、後半のプロダクト競争(agent mode / 制作ワークフロー)の土台になっています。

6月10日:OpenAI o3-pro

OpenAIはo3の長考版として o3-pro をリリースしました(OpenAI Model Release Notes: Launching OpenAI o3-pro )。

数カ月後の実感としては、こうした上位版の価値は「最高性能」よりも、エージェント運用で効く“安定して当てられる”感覚(難しいタスクでのブレにくさ)にあります。

6月7日:Advanced Voice Modeアップデート

音声対話の自然さ(イントネーション等)を強化するアップデートが入りました(OpenAI Model Release Notes: Updates to Advanced Voice Mode )。

地味ですが、数カ月後に効くのは「AIを使う入口」がキーボードから会話へ寄ることで、日常タスクが“音声で投げてあとで回収する”形に近づく点です。

6月19日:Kling(PRO modeの整備)

KlingのAPIアップデートでは、kling-v2-1 がSTD/PROの両モードをサポートすることが告知されています(Kling API: Update Announcement )。

ここが後から効いてくるのは「モデル名」よりも、動画生成が

  • 品質ティア(STD/PRO)の分離
  • start/end frame などの“制御プリミティブ”

に寄っていき、「一発で当てる」から「狙って作る(編集可能にする)」へ進み始めた点です。

6月30日:Baidu ERNIE 4.5(オープンソース)

Baiduは「ERNIE 4.5」をオープンソースとして公開しました(Baidu ERNIE Blog: ERNIE 4.5 )。

中国勢の動きとしては、DeepSeekやAlibabaだけでなく、Baiduのような大手も「オープンで出してくる」選択を見せた点が示唆的でした。

6月30日:GitHub Copilot Chat拡張機能オープンソース化

5月に宣言されていたCopilot Chat拡張機能のオープンソース化が実現しました(VS Code Blog: Open Source AI Editor - First Milestone )。

これにより、コミュニティがAI機能のPRを送ったり、プロンプトの挙動を確認したり、セキュリティ上の問題を報告しやすくなりました。

7月:agent mode統合と「仕事の導線」の加速

7月は、モデルの新作よりも「どう使って仕事を進めるか」の導線が一気に太くなった月でした。年末に振り返ると、ここで起きていたのは

  • 調査(deep research)と操作(Operator)がagent modeに統合されていく
  • エンタープライズ側がMCPを含む形で“つなぎ込み”を始める
  • 学習/知識ワーク側(NotebookLM)も、成果物を出す方向に寄っていく

という「実務の入口の整備」で、以降のプロダクト体験の差を作っています。

7月11日:Moonshot AI Kimi K2(Open Agentic Intelligence)

Moonshot AIは「Kimi K2」を公開しました(Moonshot AI: Kimi K2 )。

Kimi K2が面白いのは、単に「強いモデルが出た」というより、最初からエージェント用途(tool use / agentic coding)を前提に設計されている点です。

  • MoE(Mixture-of-Experts)で、総パラメータは1T、推論時のアクティブは32Bという構成
  • Kimi-K2-Base / Kimi-K2-Instructをオープンソースとして公開(用途に応じてベースを追加学習するか、Instructをそのまま使うか選べる)
  • 公式の説明でも「答えるだけでなく、行動する(does not just answer; it acts)」が強調されていて、ツール前提の運用を意識しているのが分かります

また、使い始める導線が具体的なのも特徴です。

  • Web/モバイルのkimi.com で選択して試せる
  • 既存アプリを移植しやすいように、OpenAI/Anthropic互換をうたうAPIが用意されています(platform.moonshot.ai
  • 自前ホスティング向けに、vLLMやSGLangなどの推論エンジンでの稼働を推奨しています(GitHub: MoonshotAI/Kimi-K2

一方で制約も明記されていて、現実的です(例:現時点でVisionは未対応、ツール定義が曖昧だと出力が冗長になりやすい、ツール有効化でタスクによっては性能が落ちることがある、など)。

7月14日:AWS Kiro(プレビュー)

AWSは、エージェント指向のIDE「Kiro 」をプレビューとして公開しました。Kiroの特徴はSpec駆動開発で、自然言語で要件を定義すると、AIがタスク分解・実装・検証までを一貫して行う設計です。

年末に見ると、Kiroが先行して示したのは「エディタ内でエージェントが動く」だけでなく、要件定義から実装までの"構造化されたワークフロー"をAIに任せるという方向性でした。

7月15日:S&P Global × Anthropic(Claudeに金融データを統合)

S&P Globalは、ClaudeからS&P Globalデータにアクセスする仕組みを発表しました。ここで「MCP server」という単語が明確に出てきていて、エンタープライズ側がMCPを現実のワークフローに落とし込み始めたのが象徴的です(S&P Global press release )。

7月16日:ChatGPT macOSアプリにRecord mode(Plus)

ChatGPTのmacOSデスクトップアプリでRecord modeがPlusユーザー向けに提供されました(ChatGPT Release Notes: Record mode )。

7月17日:ChatGPT agentとしての統合が進む

「調査(deep research)」と「操作(Operator)」が一つの枠組み(agent mode)に集約されていく流れが見えてきます。

7月17日:GitHub Copilot coding agent(VS Code統合)

VS CodeからGitHubのCopilot coding agentを直接操作できるようになりました(VS Code Blog: Command GitHub’s Coding Agent from VS Code )。

これが象徴的なのは、エディタ内の「同期的なエージェント」(agent mode)と、GitHub上で非同期に動く「クラウドエージェント」(coding agent)が同じ画面から指示できるようになった点です。issueをCopilotにアサインし、PRが上がったらレビューしてフィードバック、という流れがエディタを離れずに完結します。

7月22日:Alibaba Qwen3-Coder

Alibabaはコーディング用途を前面に出した「Qwen3-Coder」を公開しました(Qwen Blog: Qwen3-Coder )。

数カ月後の目線だと、ここで効いてくるのは「中国勢も“汎用チャット”ではなく、コーディングやエージェントに刺さる形で差別化してきた」点です。

7月23日:ByteDance Seed Prover

ByteDance Seedは、数学推論の強さ(IMOレベルの問題を含む)を前面に出した取り組みとしてSeed Proverを紹介しています(ByteDance Seed blog )。

個人的には、こうした「数学で勝った」話そのものよりも、各社が“推論”を目標関数として明確に据え、モデルの方向性を語るようになったのが2025年らしい変化だと思います。

7月29日:ChatGPT Study Mode / Google AI Mode / NotebookLM

  • ChatGPTのStudy Mode(学習支援モード)が提供開始(ChatGPT Release Notes: Study Mode
  • Google SearchのAI Modeが学習用途向けに強化(Canvas、PDFアップロードなど)(Google: AI Mode updates
  • NotebookLMがVideo OverviewsやStudio強化を発表(Google: NotebookLM Video Overviews
    • Video Overviewsは「ナレーション付きスライド」形式で、資料理解を視覚的に補助するのが狙い
    • Studioは同種アウトプット(音声/動画/マインドマップ等)を複数保存できるようになり、学習や共有のワークフローが一段使いやすくなりました

8月:GPT-5と、OpenAIのオープンウェイト

8月は、OpenAIが「最上位モデル」を押し出す一方で、オープンウェイトも出してきたのが象徴的でした。数カ月後に残る意味は、クローズド/オープンの二択ではなく、用途や配備形態ごとに“適材適所”を選ぶ時代が加速したことです。

8月5日:OpenAIのオープンウェイト推論モデル(gpt-oss)

OpenAIは gpt-oss-120b / gpt-oss-20b の公開をアナウンスしました(OpenAI Model Release Notes: Introducing gpt-oss-120b and gpt-oss-20b )。

数カ月後に見ると、ここが効いたのは「OpenAIがオープンに寄った」事実よりも、現場の意思決定が「APIか/自前か」を再び真面目に考える方向へ戻ったことです(用途によっては自前配備が合理的になってきた)。

8月7日:OpenAI GPT-5

OpenAIは GPT-5 を発表しました(OpenAI: Introducing GPT-5 )。

ただ、数カ月後に残るのは「GPT-5がすごい」より、以降のツールやワークフローが“この水準を前提”に作られていくこと(基準線の引き上げ)だと思います。

9月:LangChain/LangGraph v1.0 alpha

9月は「モデルの新機能」ではなく、エージェント実装の足場が“1.0へ向かって固まり始めた”のが大きいです。後から見ると、この頃から「一発プロンプト」よりも、状態・分岐・再実行を前提にした設計が増えていきました。

9月:LangChain / LangGraph v1.0 alpha

LangChainチームはLangChainとLangGraphのv1.0 alphaリリースを発表しました(LangChain Blog )。

ここが面白いのは「モデルの進化」だけでなく、「エージェントを作るための足場(フレームワーク)」も安定版へ向けて固まり始めた点です。数カ月後にGA(10月)へつながる流れを見ても、この頃から“実装の型”が共有され始めたのが分かります。

10月:LangGraph 1.0 GAと、Hugging Faceのエージェント基盤

10月は、エージェントを「作れる」から「運用できる」へ寄せる動きがはっきりした月でした。数カ月後に効いてくるのは、フレームワークや配布基盤が固まり、チームでの導入・部品化が現実的になったことです。

10月15日:Veo 3.1(Flowの編集機能・音声込み動画生成)

GoogleはVeo 3.1と、Flow内の編集機能強化を発表しました(Google: Introducing Veo 3.1 and advanced capabilities in Flow )。

Veo 3(5月)から数カ月たって見えてきたのは、動画生成の勝ち筋が「それっぽい映像が出る」から、

  • 音声を含めた一貫性
  • プロンプト追従(narrative control)
  • 参照画像やフレーム指定、Extendのような“編集可能な道具立て”

へ移っていったことです。つまり、モデル単体の良し悪し以上に「制作の手触り」をどう作るかが差になってきました。

10月22日:LangGraph 1.0(一般提供開始)

LangGraph 1.0がGAになりました(LangChain Changelog: LangGraph 1.0 is now generally available )。

年末に見える意味は、「新しいフレームワークが出た」よりも、エージェント実装の“型”が固定されたことだと思います。

エージェントは、モデル精度より先に「途中で失敗する」「何度もやり直す」「人間が介入する」「状態を持って進む」みたいな現実と戦う必要があります。LangGraphがGAになったことで、こうした運用前提の要素を状態機械(graph)として設計するやり方が“実装資産”になりました。

  • PoCで書き捨てるコードではなく、チームで共通化できる(設計・レビュー・共通部品化の基準ができる)
  • リトライや分岐、途中保存などが「後付け」ではなく「最初から設計するもの」になる

結果として、年末時点では「エージェントを作る」より「エージェントを運用する」話が増えましたが、その移行を支えた土台の一つがこのGAだった、というのが個人的な評価です。

10月22日:Hugging Face OpenEnv

Hugging Faceはエージェント向けの基盤としてOpenEnvを紹介しています(Hugging Face Blog: Introducing OpenEnv )。

数カ月後の目線だと、こういう基盤の価値は「新しい機能」よりも、エージェント実装を配布・再利用しやすい形に寄せていく点(チーム開発・テンプレ化)にあります。

10月26日:huggingface_hub v1.0

Hugging Faceは huggingface_hub v1.0 を発表しました(Hugging Face Blog: huggingface_hub v1.0 )。

こういう"地味な1.0"が効くのは、依存関係として安心して載せられるようになり、ツール連携や運用コードが積み上げやすくなる点です。

10月29日:Cursor 2.0(マルチエージェント・独自モデル)

AI搭載エディタCursor が、2.0をリリースしました(Cursor Changelog: 2.0 )。

Cursor 2.0の特徴は、

  • マルチエージェント: 1つのプロンプトで最大8つのエージェントを並列実行。git worktreeを使ってファイル衝突を回避
  • Composer: Cursorが独自に訓練したエージェント向けモデル。同等性能で4倍高速を謳う
  • ブラウザ統合(GA): エディタ内にブラウザを埋め込み、DOM情報をエージェントに渡せる
  • サンドボックスターミナル(GA): エージェントが実行するシェルコマンドをサンドボックスで隔離

で、「補完ツール」から「複数エージェントを使い分ける開発環境」への転換を示したのが印象的でした。

年末に向けてCursorはさらに進化し、11月の2.1でPlan ModeやAI Code Reviewを強化、12月の2.2ではDebug Modeやマルチエージェント評価(judging)機能を追加しています。

11月:統合エージェント体験と開発ツールの収束

11月は、エージェントが"デモ"から"開発環境の主役"へ寄っていく流れが見えた月でした。同時に、バラバラに発展していた開発ツールが「複数エージェントを統合管理する」方向へ収束し始めたのも特徴的です。

11月5日:VS Code統合エージェント体験(Agent Sessions / OpenAI Codex統合)

GitHub UniverseでVS Codeの「統合エージェント体験」が発表されました(VS Code Blog: A Unified Experience for all Coding Agents )。

ここで重要なのは、

  • Agent Sessions: ローカル/クラウドで動く複数エージェントを一つのUIで管理
  • OpenAI Codex統合: Copilot Pro+サブスクリプションでOpenAI Codexが利用可能に
  • Plan agent: 曖昧なプロンプトから詳細な計画を立てる組み込みエージェント
  • Subagents: メインのコンテキストを汚さずにサブタスクを委譲する仕組み

という形で、「どのエージェントを使うか」より「タスクに応じて使い分ける」方向へ進んだ点です。

年末に見ると、この発表が示唆するのは「一つのツールに閉じこもる」より「複数エージェントを組み合わせる」時代が来たことで、開発者が"エージェント・オーケストレーター"になっていく流れが見えます。

11月17日:AWS Kiro GA(プロパティベーステスト / CLI)

KiroがGA(一般提供)になりました(Kiro Blog: General Availability )。

GA版で追加された機能として特徴的なのが、

  • プロパティベーステスト(PBT): Specから「普遍的に成り立つべき性質」を抽出し、ランダムな入力で数百〜数千パターンをテスト
  • チェックポイント: エージェントの実行途中に戻れる機能
  • Kiro CLI: ターミナルでも同じエージェント体験を提供

で、「AIが書いたコードが仕様に合っているか」を自動検証する方向が強まったのが印象的でした。

11月20日:Google Antigravity

Googleは、複数エージェントを「計画→実行→検証」まで回せるエージェント指向の開発プラットフォーム「Antigravity」を発表しました(Google Developers Blog: Build with Google Antigravity / antigravity.google )。

エディタ上の補完やチャットだけでなく、エージェントがターミナルやブラウザまで横断して作業し、成果物(スクショやタスクのまとまり)でレビューできる、という思想がはっきりしていて、「エージェントを実務の道具として扱う」方向が一段進んだ印象です。

数カ月後に見ると、こうしたプロダクトが提示した価値は「速く書ける」ではなく、非同期に任せた作業を“確認できる形”で回収できることでした。

12月:Transformers v5と、エージェント標準化(MCP)

12月は、年内に積み上がった変化が「ちゃんと使える形」に収束していく月でした。推論まわりの互換性や、エージェント連携の標準化が進むことで、2026年は“各社の発表を追う”よりも、自分の環境にどう組み込むかが主戦場になっていきそうです。

12月1日:Transformers v5.0.0rc-0

Hugging FaceはTransformers v5の最初のリリース候補(v5.0.0rc-0)を公開しました(Hugging Face Blog: Transformers v5 )。

この発表の要点は「PyTorch一本化」「量子化のファーストクラス化」「推論エンジン/ローカル実行との相互運用性(vLLM/SGLang/llama.cpp/MLX等)」にあり、オープンソース・エコシステム側が“使われ方”に合わせて大きく作り変えられているのが印象的でした。

12月2日:AWS Kiro autonomous agent(プレビュー)

Kiroに、リポジトリを跨いで非同期で動作する「autonomous agent」がプレビュー追加されました(Kiro Blog: Introducing Kiro autonomous agent )。

ここが興味深いのは、セッションベースではなくコンテキストを持続する点です。一度教えたパターン(エラーハンドリング、命名規則など)を覚えていて、後続のタスクにも適用されます。

例えば「15個のマイクロサービスで使われているライブラリをアップグレード」といったマルチリポジトリ作業を、一度の指示で並列実行できる設計です。GitHub UniverseでOpenAIやAnthropicからも類似のエージェントが発表されており、この月は「非同期・持続的なエージェント」が複数登場した時期でした。

12月9日:Agentic AI Foundation(MCPの寄贈)

AnthropicがModel Context Protocol(MCP)をLinux Foundationに寄贈し、Agentic AI Foundationを設立したことが発表されました(Linux Foundation press release )。

12月18日:NotebookLM Data Tables

NotebookLMに、ソースから情報を集約して「表」を作り、Google SheetsへエクスポートできるData Tablesが追加されました(Google: Data Tables in NotebookLM )。

NotebookLMの進化を追っていると分かりますが、後から効いてくるのは「要約が上手い」ではなく、知識ワークの成果が"そのまま次の作業に持ち込める形"(表、資料、スライド等)で出てくる点です。

12月18日:ByteDance Seed1.8

ByteDance Seedは「Seed1.8」を公開し、汎用的なエージェント指向モデルとしての位置づけを打ち出しました(ByteDance Seed blog: Seed1.8 )。

2025年を俯瞰して見えた4つの変化

年表を追っているとイベントは多いのですが、年末に俯瞰すると「結局ここが変わった」と言えそうなのは、次の4つです。

1. 推論が“特別枠”から“デフォルト”になった

o3 / Claude 4 / Gemini 2.5 / GPT-5…といった名前は置いておくとして、重要だったのは「推論できるモデルが出た」ではなく、推論が日常のデフォルトになったことです。

これ以降、ユーザー体験としては「回答が賢い」よりも、

  • どこまで粘って考えるか
  • 途中で迷走したときに立て直せるか
  • 作業を“最後まで”やり切れるか

のほうが差になります。

2. 競争軸が“モデル”から“エージェント運用”へ広がった

2025年後半に効いてきたのは、モデルそのものの差よりも、エージェントをどう運用するかでした。

  • deep research / Operatorのような「調査」と「操作」の統合
  • LangGraph 1.0 GAのような、状態・分岐・再実行を前提にした実装の型
  • NotebookLMやStitch、Antigravityのような、成果物とレビューを中心にした体験

もう一つ、エージェント運用を下から支えたのが、RAGの中核である「検索精度」の成熟です。2025年は“ベクトル検索を入れればOK”ではなく、

  • lexical(BM25)/ sparse / dense を組み合わせて候補を広めに拾う
  • 最後は rank fusion や reranker で絞る

という定石が、実装レベルで当たり前になりました。

  • OpenSearchは、Hybrid Searchの改善としてRRF(Reciprocal Rank Fusion)をNeural Search pluginに追加し、k-NNやBoolean検索などの結果を「順位ベース」で安定的に統合する方向を示しました(OpenSearch: Introducing reciprocal rank fusion for hybrid search )。
  • Elasticsearch側も、Convex Combination(線形結合)やRRFを含むハイブリッド検索の設計を整理していて、候補生成と統合(fusion)を“設計対象”として扱う流れが強まっています(Elasticsearch Labs: Elasticsearch hybrid search )。
  • Pineconeはハイブリッド検索のガイドで、dense/sparseを分けて検索し、マージした上でrerankする、という構成を推奨しています(Pinecone Docs: Hybrid search )。
  • Weaviateはリリースでrerankerモデル統合を進め、検索(retrieve)と再ランキング(rerank)が“同じ場所”で扱える方向を強めました(Weaviate: Weaviate 1.34 Release )。

こうした“外側”が揃うほど、AIは「賢いチャット」から「仕事が進む道具」に近づきます。

3. オープンウェイトが“思想”から“配備の選択肢”になった

DeepSeek / Qwen / Kimi K2 / gpt-oss など、オープン(ウェイト)系の話題が増えたのは、単なる理想論ではなく、

  • 自前で動かす
  • 手元の推論エンジン(vLLM/SGLang等)に載せる
  • 目的に合わせてチューニングする

といった「配備の現実」が、ようやく一般の選択肢になったからだと思います。

この視点で見ると、Transformers v5のような互換性・実運用寄りの更新が"地味だけど効く"ことも納得できます。

4. 開発環境がエージェント前提に再編された

2025年は、IDE / CLI / クラウドの境界が曖昧になり、開発環境そのものがエージェントのオーケストレーションを前提に再設計された年でもありました。

  • 2月〜4月:GitHub Copilot agent modeがプレビューからGAへ。MCP対応により拡張性がオープンに
  • 5月〜6月:VS Code AI機能のオープンソース化。透明性とコミュニティ参加が加速
  • 7月:AWS Kiroプレビュー、GitHub Copilot coding agentのVS Code統合。Spec駆動開発と非同期エージェントが登場
  • 11月:VS Code統合エージェント体験(Agent Sessions / OpenAI Codex統合 / Subagents)、Kiro GA
  • 12月:Kiro autonomous agentプレビュー。セッションを超えた持続的コンテキスト

振り返ると、この流れで変わったのは「どのツールが一番いいか」ではなく、

  • 同期的なエージェント(エディタ内)と非同期的なエージェント(クラウド)を使い分ける
  • 複数のエージェントを一つのUIで管理する(Agent Sessions)
  • エージェントの出力を検証可能な形で受け取る(スクリーンショット、PBT、PR単位のレビュー)

という「開発者がエージェントを指揮する」パラダイムが定着したことです。

2026年は、この土台の上で「どこまで任せられるか」の境界線が日々動いていくことになりそうです。

まとめ

2025年は、推論がデフォルトになり、AIが「賢い回答器」から「調査・操作・生成を束ねるエージェント」へ寄っていった年でした。

DeepSeek / Qwen / Kimi K2 などの中国勢の存在感も大きく、競争が特定のプレイヤーだけのものではないことが、はっきり可視化された印象があります。

また、LangGraphのGAやTransformers v5のような"地味な基盤"が、数カ月後に効いてくるのもこの年の特徴でした。モデルが強くなるほど、最後に差が付くのは「状態」「再実行」「レビュー」「配備」の設計です。

さらに、開発環境そのものがエージェント前提で再編され、VS Code / Kiro / Cursorなど各IDE/CLIツールが「複数エージェントのオーケストレーション」へ向かいました。開発者の役割が「コードを書く」から「エージェントを指揮する」へシフトしつつあるのを実感した一年でした。

2026年は、この土台の上で「エージェントがどこまで日常のワークフローを置き換えるか」が本丸になります。個人的には、発表を追うより、手元の環境で小さく回して「任せられる範囲」を増やす一年になりそうです。

参考リンク