大模型从Chat走向Act：让每个人拥有“智能助理”

来源：光明网2024-11-29 16:50

　　光明网讯 11月29日，智谱Agent OpenDay活动在京举行。智谱CEO张鹏出席活动，发表主题为《Agent让大模型从Chat走向Act》的演讲，并介绍了多个人工智能新进展。

　　人类与机器的互动方式正在发生范式转变，这是由于只有对话功能的Chatbot，正在进化为“有手、有脑、有眼睛”的自主Agent。

　　作为最早探索Agent的大模型企业之一，智谱已经取得了一系列可以看到的成果：AutoGLM能自主执行超过50步的长步骤操作，也可以跨APP执行任务；AutoGLM开启“全自动”上网新体验，支持数十个网站的无人驾驶；像人一样操作计算机的GLM-PC启动内测，基于视觉多模态模型实现通用Agent的技术探索。

智谱CEO张鹏发表演讲

　　从“说”到“做”：大模型从Chat走向Act

　　大模型技术正在改变机器和人的互动方式，基于理解需求、规划与决策、执行行动和自我反思，Agent 将带来符合直觉的人机交互——从人适应机器，到让机器适应人。

　　苹果（Apple Intelligence）、Anthropic（Computer Use）、谷歌（Jarvis）和 OpenAI（Operator）等企业也已经把Agent作为2025年的主要关注点。

　　Gartner近期将agentic AI列为2025年十大技术趋势之一，并预测2028年至少有15% 的日常工作决策将由agentic AI自主完成，而这一数字在2024年为0。

　　与GenAI不同，Agent 是目标驱动型的，能够完全执行工作流程，适应、学习、迭代、与其他系统和人类协作，并端到端地完成任务。在张鹏看来，Agent可以看作是大模型通用操作系统LLM-OS的雏形。

　　GLM-PC：推进电脑的“无人驾驶”

　　GLM-PC 是 GLM 团队面向“无人驾驶”PC的一次技术探索，基于智谱的多模态模型 CogAgent。

　　在第一阶段的内测场景中，可以看到一系列“无人驾驶”的电脑操作场景：

　　会议替身，可以帮用户预订和参与会议，发送会议总结；文档处理，支持文档下载、文档发送、理解和总结文档；网页搜索与总结，在指定平台搜索指定关键词，完成阅读、总结；远程和定时操作，远程手机发指令，GLM-PC可以自主完成电脑操作，设定一个未来时间，在开机状态下定时执行任务；隐形屏幕，在用户工作时，GLM-PC可以在隐形屏幕上自主完成工作，解放屏幕使用权。

　　人用电脑的过程是用眼看图形及文字，用脑规划，再用手执行单击双击、输入等操作。GLM-PC用电脑的方式几乎完全和人一样。也正因如此，理论上只要是为人类设计的应用，在GLM-PC学习之后，它都能够执行。这是一种系统级、跨平台的能力，不依赖于HTML、API，具备更高的能力上限。

　　但由于PC的复杂程度较高，目前大模型的能力距离真正代替人类办公还有一定距离。GLM-PC在当前版本下，用户仍需要输入非常精准的指令。

　　AutoGLM新升级：挑战更复杂的任务

　　新升级的AutoGLM可以挑战更复杂的任务。

　　AutoGLM能够理解超长指令，执行超长任务，在多步、循环任务中，AutoGLM的速度表现超过人手动操作。

　　AutoGLM支持跨APP来执行任务。用户将习惯于AI自动处理，而不是在多个APP间来回切换。由于目前AutoGLM形态更像是用户和应用间的APP执行的调度层，因此跨App能力是里面非常关键的一步。

　　AutoGLM能够支持长任务的自定义短语。例如，如果想买一杯咖啡，无需再说“帮我买一杯瑞幸咖啡，生椰拿铁，五道口店，大杯、热、微糖”这类超长指令，只需要说“点咖啡”。

　　拥有“随便模式”AutoGLM可以帮助人类作出决策，随便模式下，所有步骤都让AI决策，让我们体验抽盲盒般的惊喜。

　　大模型的能力在不断进化，AI慢慢长出了“大脑”“眼睛”甚至“双手”。现在的Agent带来了执行力的加速提升。

　　大模型和Agent的发展为用户带来AI时代智能设备的新范式，更意味着大模型技术更广阔的落地空间。从智能设备走向智能网络，在不久的将来，我们将看到AI原生设备的互联互通和无限可能。（记者谢芸）

[ 责编：李欣哲 ]

阅读剩余全文（）

全部导航

大模型从Chat走向Act：让每个人拥有“智能助理”