<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>编程Agent on 有鱼智界 | 森林有鱼</title>
        <link>https://www.iyouyu.tech/tags/%E7%BC%96%E7%A8%8Bagent/</link>
        <description>Recent content in 编程Agent on 有鱼智界 | 森林有鱼</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Mon, 25 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://www.iyouyu.tech/tags/%E7%BC%96%E7%A8%8Bagent/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Google CEO承认Gemini编程Agent落后:AI行业从模型竞争转向系统级工程</title>
        <link>https://www.iyouyu.tech/p/google-ceo%E6%89%BF%E8%AE%A4gemini%E7%BC%96%E7%A8%8Bagent%E8%90%BD%E5%90%8Eai%E8%A1%8C%E4%B8%9A%E4%BB%8E%E6%A8%A1%E5%9E%8B%E7%AB%9E%E4%BA%89%E8%BD%AC%E5%90%91%E7%B3%BB%E7%BB%9F%E7%BA%A7%E5%B7%A5%E7%A8%8B/</link>
        <pubDate>Mon, 25 May 2026 00:00:00 +0000</pubDate>
        
        <guid>https://www.iyouyu.tech/p/google-ceo%E6%89%BF%E8%AE%A4gemini%E7%BC%96%E7%A8%8Bagent%E8%90%BD%E5%90%8Eai%E8%A1%8C%E4%B8%9A%E4%BB%8E%E6%A8%A1%E5%9E%8B%E7%AB%9E%E4%BA%89%E8%BD%AC%E5%90%91%E7%B3%BB%E7%BB%9F%E7%BA%A7%E5%B7%A5%E7%A8%8B/</guid>
        <description>&lt;img src="https://images.unsplash.com/photo-1555949963-aa79dcee981c?w=800&amp;h=600&amp;fit=crop" alt="Featured image of post Google CEO承认Gemini编程Agent落后:AI行业从模型竞争转向系统级工程" /&gt;&lt;h2 id=&#34;摘要&#34;&gt;摘要
&lt;/h2&gt;&lt;p&gt;2026年5月25日,Google CEO Sundar Pichai在公开场合承认,Gemini在编程Agent(Coding Agents)和长程任务(Long-horizon Tasks)方面明显落后于竞争对手。这一罕见的坦诚表态揭示了AI行业正在经历的深刻转变:竞争焦点从单纯的模型基准测试成绩,转向真实世界任务完成能力和端到端系统可靠性。与此同时,OpenAI的Codex工具快速迭代,Anthropic的Claude Code占据企业市场领先地位,而AI行业的基础设施也面临着从模型层面向系统层面的全面重构。本文将深度解析这一行业转折点的技术内涵和商业影响。&lt;/p&gt;
&lt;h2 id=&#34;事件背景&#34;&gt;事件背景
&lt;/h2&gt;&lt;p&gt;2026年5月25日,RadarAI的AI速报(Issue #325)报道了Google CEO Sundar Pichai的重要表态。他公开承认Gemini在两个关键领域存在明显不足:&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;编程Agent能力&lt;/strong&gt;: 在自主完成复杂编程任务方面落后&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;长程任务执行&lt;/strong&gt;: 在需要多步骤、长时间保持上下文一致性的任务中表现不稳定&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;这一表态并非孤立事件,而是AI行业发展到现阶段的必然结果。让我们通过时间线来理解这一转变:&lt;/p&gt;
&lt;pre class=&#34;mermaid&#34;&gt;
  graph TD
    A[2023-2024: 模型性能竞赛] --&amp;gt;|Benchmark成绩| B[GPT-4 vs Claude vs Gemini]
    B --&amp;gt;|2025: Agent技术兴起| C[Claude Code发布]
    C --&amp;gt;|2026年初: 系统级竞争| D[Codex/Claude Code/Harness]
    D --&amp;gt;|2026年5月| E[Google承认落后]
    E --&amp;gt;|行业共识| F[真实任务完成能力 &amp;gt; 模型基准分数]
&lt;/pre&gt;

&lt;h2 id=&#34;核心技术解析&#34;&gt;核心技术解析
&lt;/h2&gt;&lt;h3 id=&#34;技术架构&#34;&gt;技术架构
&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;编程Agent的核心技术栈&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;一个成熟的编程Agent需要以下技术组件的协同工作:&lt;/p&gt;
&lt;pre class=&#34;mermaid&#34;&gt;
  graph LR
    A[自然语言理解] --&amp;gt; B[任务分解]
    B --&amp;gt; C[代码生成]
    C --&amp;gt; D[工具调用]
    D --&amp;gt; E[执行验证]
    E --&amp;gt; F[错误修复]
    F --&amp;gt; G[结果交付]
    
    style A fill:#e1f5ff
    style B fill:#e1f5ff
    style C fill:#fff4e1
    style D fill:#fff4e1
    style E fill:#e8f5e9
    style F fill:#e8f5e9
    style G fill:#f3e5f5
&lt;/pre&gt;

&lt;p&gt;&lt;strong&gt;关键组件分析:&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;1. 持久化线程(Persistent Threads)&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;维持长时间对话的上下文一致性&lt;/li&gt;
&lt;li&gt;支持后台任务执行而不阻塞用户交互&lt;/li&gt;
&lt;li&gt;实现多任务并行处理&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;2. 工具调用框架(Tool Calling)&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;文件系统读写&lt;/li&gt;
&lt;li&gt;终端命令执行&lt;/li&gt;
&lt;li&gt;Git操作&lt;/li&gt;
&lt;li&gt;测试运行和调试&lt;/li&gt;
&lt;li&gt;网络请求和API调用&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;3. 上下文窗口管理&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;智能选择相关代码片段&lt;/li&gt;
&lt;li&gt;维护项目级别的理解&lt;/li&gt;
&lt;li&gt;处理跨文件依赖关系&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;4. 错误恢复机制&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;自动识别执行失败&lt;/li&gt;
&lt;li&gt;生成修复策略&lt;/li&gt;
&lt;li&gt;回滚不安全操作&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;关键创新点&#34;&gt;关键创新点
&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;创新1: OpenAI Codex的工作流增强&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;2026年5月,Codex连续发布多项关键功能:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Queue(任务队列)&lt;/strong&gt;: 支持任务路由和上下文引导,提升多线程开发效率(尽管存在已知bug)&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Steer(引导控制)&lt;/strong&gt;: 允许用户在执行过程中动态调整Agent行为&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Info Panel(信息面板)&lt;/strong&gt;: 提供实时任务状态和进度可视化&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;/side命令&lt;/strong&gt;: 支持侧边栏对话,用户可以在不中断主会话的情况下检查&lt;code&gt;/goal&lt;/code&gt;长任务进度&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;/goal任务面板&lt;/strong&gt;: 支持删除、暂停/恢复和编辑任务,所有变更延迟到当前轮次完成后执行&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些功能共同构成了一个完整的AI代理工作流管理系统。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;创新2: Anthropic的&amp;quot;Should Do &amp;gt; Can Do&amp;quot;框架&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Anthropic在2026年5月发布的《创始人行动手册》中提出了一个关键洞察:&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;在AI时代,最稀缺的资源不是技术能力(&amp;ldquo;能做什么&amp;rdquo;),而是判断力(&amp;ldquo;应该做什么&amp;rdquo;)&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;这一框架揭示了AI代理系统的核心挑战:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;技术实现能力正在快速普及&lt;/li&gt;
&lt;li&gt;战略决策和价值判断成为差异化竞争点&lt;/li&gt;
&lt;li&gt;AI系统需要理解业务上下文和优先级&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;创新3: &amp;ldquo;AI员工&amp;quot;方法论&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Jason Liu在2026年5月公开提出了完整的&amp;quot;AI员工&amp;quot;方法论,包含:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;持久线程(Persistent Threads): 维持长期工作状态&lt;/li&gt;
&lt;li&gt;语音输入: 支持自然交互&lt;/li&gt;
&lt;li&gt;Heartbeats调度: 定期执行维护任务&lt;/li&gt;
&lt;li&gt;共享记忆: 跨会话知识积累&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;性能评测&#34;&gt;性能评测
&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;编程Agent能力对比:&lt;/strong&gt;&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;能力维度&lt;/th&gt;
          &lt;th&gt;Claude Code&lt;/th&gt;
          &lt;th&gt;OpenAI Codex&lt;/th&gt;
          &lt;th&gt;Google Gemini&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;SWE-Bench Pro&lt;/td&gt;
          &lt;td&gt;64.3%&lt;/td&gt;
          &lt;td&gt;58.6%&lt;/td&gt;
          &lt;td&gt;~50%&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;长程任务稳定性&lt;/td&gt;
          &lt;td&gt;优秀&lt;/td&gt;
          &lt;td&gt;良好&lt;/td&gt;
          &lt;td&gt;需改进&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;工具调用可靠性&lt;/td&gt;
          &lt;td&gt;95%+&lt;/td&gt;
          &lt;td&gt;90%+&lt;/td&gt;
          &lt;td&gt;80%+&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;企业采用率&lt;/td&gt;
          &lt;td&gt;34.4%&lt;/td&gt;
          &lt;td&gt;32.3%&lt;/td&gt;
          &lt;td&gt;28.7%&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;GitHub提交占比&lt;/td&gt;
          &lt;td&gt;4%&lt;/td&gt;
          &lt;td&gt;3.5%&lt;/td&gt;
          &lt;td&gt;&amp;lt;2%&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;实际应用场景表现:&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;场景1:复杂代码重构&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Claude Code: 能够理解10万行代码库的整体架构,自动识别重构机会&lt;/li&gt;
&lt;li&gt;Codex: 在明确指导下表现优秀,但自主规划能力稍弱&lt;/li&gt;
&lt;li&gt;Gemini: 在简单重构任务中表现良好,但复杂场景下容易迷失上下文&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;场景2:Bug调试和修复&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Claude Code: 能够系统性定位问题根源并生成修复方案&lt;/li&gt;
&lt;li&gt;Codex: 擅长单文件级别的调试,跨文件依赖处理能力较强&lt;/li&gt;
&lt;li&gt;Gemini: 基础调试能力合格,但复杂并发问题处理能力不足&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;场景3:新功能开发&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;三者都能胜任中等复杂度的功能开发&lt;/li&gt;
&lt;li&gt;Claude Code在需求理解和任务分解方面表现最佳&lt;/li&gt;
&lt;li&gt;Codex在代码质量和最佳实践方面表现突出&lt;/li&gt;
&lt;li&gt;Gemini需要更多人工指导和干预&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;行业影响&#34;&gt;行业影响
&lt;/h2&gt;&lt;h3 id=&#34;对市场的影响&#34;&gt;对市场的影响
&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;1. AI行业竞争范式的转变&lt;/strong&gt;&lt;/p&gt;
&lt;pre class=&#34;mermaid&#34;&gt;
  graph TD
    A[过去: 模型基准测试竞赛] --&amp;gt;|SWE-Bench/MMLU分数| B[技术指标导向]
    C[现在: 系统级工程能力] --&amp;gt;|真实任务完成率| D[商业价值导向]
    
    B -.转变.-&amp;gt; D
    
    E[关键指标变化]
    E --&amp;gt; F[从&amp;#34;模型多聪明&amp;#34;到&amp;#34;系统多可靠&amp;#34;]
    E --&amp;gt; G[从&amp;#34;单次交互质量&amp;#34;到&amp;#34;长程任务完成&amp;#34;]
    E --&amp;gt; H[从&amp;#34;技术演示&amp;#34;到&amp;#34;生产可用&amp;#34;]
&lt;/pre&gt;

&lt;p&gt;&lt;strong&gt;2. 投资重点的转移&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;风险投资正在从纯粹的模型研发转向:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Agent工作流管理系统&lt;/li&gt;
&lt;li&gt;企业级集成和部署工具&lt;/li&gt;
&lt;li&gt;长程任务可靠性和监控&lt;/li&gt;
&lt;li&gt;安全控制和审计追踪&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;3. 企业采购决策的变化&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;企业客户越来越关注:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;端到端任务成功率,而非单轮对话质量&lt;/li&gt;
&lt;li&gt;与现有工具链的集成能力&lt;/li&gt;
&lt;li&gt;安全性和合规性保障&lt;/li&gt;
&lt;li&gt;总体拥有成本(TCO)而非单token价格&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;对开发者的意义&#34;&gt;对开发者的意义
&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;机遇:&lt;/strong&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;新的技术栈需求&lt;/strong&gt;: Agent开发、工具调用编排、长程任务管理等新兴领域人才需求激增&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;工作流程升级&lt;/strong&gt;: AI编程工具将显著提升开发效率,让开发者专注于更高价值的工作&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;开源生态繁荣&lt;/strong&gt;: Codex、Harness等工具的开源组件为开发者提供学习和贡献机会&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;strong&gt;挑战:&lt;/strong&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;技能转型压力&lt;/strong&gt;: 传统编码技能价值下降,需要掌握AI协作和Agent管理能力&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;平台选择复杂性&lt;/strong&gt;: 不同Agent平台的能力差异加大,选择成本增加&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;调试难度提升&lt;/strong&gt;: AI生成代码的问题定位和修复需要新的调试方法论&lt;/li&gt;
&lt;/ol&gt;
&lt;h3 id=&#34;商业化前景&#34;&gt;商业化前景
&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;Agent工具的市场机会:&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;根据行业数据:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Claude Code年化收入已达25亿美元,且自2026年初以来翻倍&lt;/li&gt;
&lt;li&gt;企业订阅数量增长4倍&lt;/li&gt;
&lt;li&gt;财富10强企业中8家已成为Claude客户&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;商业模式的演进:&lt;/strong&gt;&lt;/p&gt;
&lt;pre class=&#34;mermaid&#34;&gt;
  graph LR
    A[API调用计费] --&amp;gt; B[订阅制SaaS]
    B --&amp;gt; C[按价值分成]
    C --&amp;gt; D[企业级定制]
    
    style A fill:#ffebee
    style B fill:#fff3e0
    style C fill:#e8f5e9
    style D fill:#e3f2fd
&lt;/pre&gt;

&lt;p&gt;&lt;strong&gt;关键趋势:&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;从按token计费转向按订阅计费&lt;/li&gt;
&lt;li&gt;从通用工具转向行业定制解决方案&lt;/li&gt;
&lt;li&gt;从单一产品转向平台生态系统&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;实际体验&#34;&gt;实际体验
&lt;/h2&gt;&lt;h3 id=&#34;使用场景演示&#34;&gt;使用场景演示
&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;场景1:多线程开发项目管理&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;使用Codex的Queue和&lt;code&gt;/side&lt;/code&gt;功能:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;12
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;13
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-fallback&#34; data-lang=&#34;fallback&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;用户: /goal 重构用户认证模块,支持OAuth 2.0
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Codex: [开始执行任务...]
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;用户: /side 检查重构进度
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Codex: [侧边栏回复] 
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;已完成:
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;- 分析现有认证逻辑 ✓
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;- 设计OAuth 2.0集成方案 ✓
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;- 实现基础OAuth客户端 ◐ (70%)
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;待完成:
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;- 集成测试
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;- 文档更新
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;- 数据库迁移脚本
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;&lt;strong&gt;场景2:长程任务的动态调整&lt;/strong&gt;&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;6
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-fallback&#34; data-lang=&#34;fallback&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;用户: /goal 实现支付系统集成
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Codex: [开始执行...]
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;[2小时后]
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;用户: /goal edit 优先支持Stripe,PayPal延后
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Codex: [确认变更将在当前轮次完成后应用]
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;&lt;strong&gt;场景3:AI员工的持续工作&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;根据Jason Liu的&amp;quot;AI员工&amp;quot;方法论:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-fallback&#34; data-lang=&#34;fallback&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;早晨: AI员工通过Heartbeats检查夜间任务状态
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;上午: 处理优先级队列中的开发任务
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;下午: 与开发者协作进行代码审查
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;晚上: 执行自动化测试和部署
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h3 id=&#34;优势与不足&#34;&gt;优势与不足
&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;优势:&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;工作流管理成熟&lt;/strong&gt;: Codex的Queue/Steer/Info Panel功能提供了完整的任务管理能力&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;长程任务支持&lt;/strong&gt;: 持久线程和&lt;code&gt;/goal&lt;/code&gt;系统使得复杂工程任务可以被有效分解和执行&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;实时可观测性&lt;/strong&gt;: &lt;code&gt;/side&lt;/code&gt;命令允许在不中断主会话的情况下监控进度&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;行业共识形成&lt;/strong&gt;: Google的坦诚表态加速了行业从模型竞赛向系统工程的转变&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;不足:&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Google明显落后&lt;/strong&gt;: Gemini在编程Agent和长程任务上的短板需要长期投入才能追赶&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;工具复杂度高&lt;/strong&gt;: Codex等工具的学习曲线陡峭,需要开发者投入时间掌握新工作流&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Known Bugs&lt;/strong&gt;: Queue功能存在已知bug,影响生产环境可靠性&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;判断力稀缺&lt;/strong&gt;: 正如Anthropic指出的,&amp;ldquo;应该做什么&amp;quot;比&amp;quot;能做什么&amp;quot;更难,这是整个行业面临的挑战&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;总结与展望&#34;&gt;总结与展望
&lt;/h2&gt;&lt;p&gt;Google CEO公开承认Gemini在编程Agent和长程任务上的落后,标志着AI行业进入了一个新的发展阶段。&lt;strong&gt;模型性能不再是决定性竞争因素,系统级工程能力和真实任务完成可靠性成为新的竞争焦点。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;关键趋势预测:&lt;/strong&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;Agent工具链快速成熟&lt;/strong&gt;: 2026年下半年,我们将看到更多专注于工作流管理、任务编排和长程可靠性的创新&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;开源与闭源并存&lt;/strong&gt;: DeepSeek的Harness等开源项目将与Claude Code、Codex形成三足鼎立&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;企业级需求主导&lt;/strong&gt;: 安全、合规、可审计性将成为企业采购的核心考量&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;开发者角色转变&lt;/strong&gt;: 从&amp;quot;写代码的人&amp;quot;转变为&amp;quot;管理AI员工的人&amp;rdquo;,判断力和战略思维成为核心竞争力&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;对于开发者和企业而言,现在是拥抱Agent技术的最佳时机。选择正确的工具链,建立新的工作流程,培养AI协作能力,将在这个快速变化的行业中保持竞争优势。&lt;/p&gt;
&lt;hr&gt;
&lt;p&gt;&lt;strong&gt;参考来源:&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://radarai.top/en/updates/brief-20260525-0800&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;AI Briefing, May 25 · Issue #325&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://radarai.top/en/updates/brief-20260524-0000&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;AI Daily Brief, May 24 — Issue #321&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.bestblogs.dev/article/a07b572a&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Google CEO Admits Coding Is Falling Behind&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.bestblogs.dev/article/3e09350b&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;30x Growth in 15 Months: Anthropic Shares Its Methodology&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.bestblogs.dev/article/68d62396&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;How to Use Codex to Its Full Potential&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
