简要总结
本视频总结了 Andrej Karpathy 关于 AI 发展趋势的观点,重点讨论了软件 3.0 时代、Agent 工程以及 AI 的未来。主要观点包括:
- 软件开发范式的转变:从编写代码到提示工程,再到利用 AI Agent 实现自动化。
- Agent 工程的重要性:在提高开发效率的同时,保证软件质量和安全性。
- AI 的 jagged intelligence(锯齿形智能):AI 在某些领域表现出色,但在其他领域存在明显不足,需要人类的监督和指导。
- 理解的重要性:即使 AI 变得越来越强大,人类的理解能力仍然至关重要,因为我们需要指导 AI 并确保其输出的合理性。
作为程序员感到落后
Andrej Karpathy 表示,自从他开始使用像 Lot Code 这样的 Agent 工具以来,他开始感到自己作为程序员的技能已经落后。尤其是在 12 月份,他发现最新的模型在生成代码块时表现出色,几乎不需要人工纠正。他越来越信任这些系统,并开始进行“Vibe Coding”。他强调,AI 领域在 12 月份发生了根本性的变化,尤其是在 Agent 的连贯工作流程方面,这促使他深入研究并进行大量的 side projects。
软件 3.0 解释
Andrej 解释了软件开发的三个阶段:软件 1.0 是编写代码,软件 2.0 是通过创建数据集和训练神经网络进行编程,而软件 3.0 则是通过提示(prompting)来控制 LLM(大型语言模型)这个“解释器”,从而在数字信息空间中执行计算。他以 OpenClaw 的安装为例,指出传统的 shell 脚本安装方式属于软件 1.0 的范畴,而将安装指令复制粘贴给 Agent 则属于软件 3.0 的范畴,后者更加强大,因为 Agent 能够根据环境智能地执行操作并进行调试。
Agents 作为安装程序
传统的软件安装需要编写复杂的脚本来适应不同的平台和环境。然而,在软件 3.0 时代,可以将安装任务交给 AI Agent,Agent 可以根据用户的环境和需求智能地完成安装过程。这种方式更加灵活和强大,因为 Agent 能够自主地解决问题和进行调试。
菜单生成 vs 原始提示
Andrej 分享了他构建 MenuGen 的经历。MenuGen 是一款可以拍摄餐厅菜单照片并显示菜品图片的应用程序。他发现,使用 Gemini 和 Nanobanana,可以直接将照片交给 AI,让 AI 在菜单上叠加菜品图片,而无需编写复杂的应用程序。这表明软件 3.0 更加原始,神经网络承担了更多的工作,而提示或上下文则变得更加重要。他认为,人们需要重新思考,不要局限于现有的模式,而要考虑新的可能性。
2026 年的显而易见
Andrej 预测,未来可能会出现完全神经化的计算机,可以直接输入原始视频或音频,然后使用扩散模型渲染 UI。他认为,在计算的早期,人们对计算机是应该像计算器还是像神经网络感到困惑。虽然我们最终选择了计算器的路径,但未来神经网络可能会成为主导,而 CPU 则成为协处理器。
可验证性和锯齿形技能
Andrej 讨论了 AI 的可验证性,指出 LLM 更容易自动化那些输出可以被验证的领域,例如数学和代码。他解释说,这是因为 LLM 在训练过程中会获得验证奖励,从而在这些领域表现出色。然而,LLM 在其他领域则表现得不够完美,这导致了 AI 的 jagged intelligence(锯齿形智能)。他举例说,即使是最先进的 AI 模型,也可能无法判断 50 米的距离是应该开车还是步行,这表明 AI 仍然存在局限性。
创始人建议和自动化
Andrej 建议,如果创始人想要在 AI 领域创业,应该关注那些可验证的领域,并创建自己的强化学习环境,进行 fine-tuning。他认为,即使实验室没有直接关注这些领域,创始人仍然可以从中受益。他还指出,几乎所有的事情最终都可以被验证,只是有些事情更容易验证。
从 Vibe Coding 到 Agent 工程
Andrej 解释了 Vibe Coding 和 Agent 工程的区别。Vibe Coding 旨在提高所有人在软件开发方面的能力,而 Agent 工程则旨在保持专业软件的质量标准。Agent 工程关注的是如何在不牺牲质量的前提下,利用 Agent 提高开发速度。他认为,Agent 工程的上限非常高,擅长 Agent 工程的人可以获得比传统工程师更高的效率提升。
Agents 无处不在和学习
Andrej 认为,未来 Agent 将无处不在,所有事物都需要为 Agent 重写。他希望看到更多 Agent 原生的基础设施,例如,可以通过提示让 LLM 构建 MenuGen,而无需手动配置 DNS 等设置。他还预测,未来每个人和组织都将拥有自己的 Agent,Agent 之间可以相互交流,从而实现自动化协作。最后,他强调,即使 AI 变得越来越强大,人类的理解能力仍然至关重要,因为我们需要指导 AI 并确保其输出的合理性。

