2026-03-23 12:54:0535人阅读
日前,由中国人工智能产业发展联盟(AIIA)安全治理委员会主办的年度会议在北京成功召开。本次大会以“构建安全共识,共筑可信未来”为主题,汇聚了来自产学研用各界的百余位专家学者与企业代表,共同探讨人工智能风险管理、平台治理及智能体安全等前沿议题 。百度安全凭借在人工智能安全领域的深厚技术积淀与持续的治理实践,再度当选AIIA安全治理委员会“副组长单位”,这一殊荣是对百度安全在过去两年中推动人工智能行业标准制定、构建安全生态方面所做贡献的高度认可。

AIIA安全治理委员会副组长单位成员

AIIA安全治理委员会副组长单位证书
作为此次大会的重要议程之一,百度大模型内容安全平台负责人李志伟受邀发表了题为《从“可回答”到“可执行”:大模型与智能体安全建设实践》的主题演讲,深刻剖析了AI技术从大模型向智能体演进过程中的范式变革。他指出,随着AI能力从单一的文本生成扩展至复杂的工具调用与环境交互,安全防御的焦点正在经历一场质的飞跃。在大模型时代,核心能力体现为“可回答”,风险主要集中在内容合规、幻觉及价值观偏差,安全目标旨在确保模型“不说错话”;而进入智能体时代,核心能力升级为“可执行”,Agent开始自主调用API、操作业务系统甚至进行多步规划,其风险也随之扩展至越权调用、恶意插件攻击及供应链风险,安全目标必须升级为确保智能体“不做错事”。智能体是一个能够调用Tools、操作API、访问真实业务系统,甚至拥有长期记忆和规划能力的“数字员工”。它可以使用日历安排会议、调用计算器处理数据、运行代码解释器甚至直接操作企业数据库。 这种能力的质变,将风险边界从虚拟的“文本框”推向了真实的“业务流”。李志伟强调,在智能体时代,安全目标必须升级为确保智能体“不做错事”。因为一个具备执行能力的Agent,如果被恶意操控或产生逻辑错误,它造成的后果不再是一句冒犯性的言论,而可能是误删关键数据、越权转账、执行恶意代码或导致系统瘫痪。

百度大模型内容安全平台负责人李志伟
面对上述挑战,李志伟在会上分享了百度大模型安全护栏构建的一套覆盖模型层、工具层、运行期及审计层的统一防护架构。这套架构并非简单的单点防御,而是融合了DevSecOps理念的系统化工程:
策略即代码:让安全规则“可编程” 面对Agent复杂多变的业务场景,硬编码的安全规则显然捉襟见肘。百度大模型安全护栏引入了“策略即代码”机制,使用声明式策略语言(DSL)来定义智能体的行为规则。这种方式使得安全策略具备了可编程、可版本化、可审计的特性。安全人员都可以像写代码一样灵活定义细粒度的行为约束,并随业务迭代实时更新策略版本,确保风控规则始终与业务逻辑同步。
严格的准入:打造可信工具供应链针对工具调用的风险,百度大模型安全护栏构建了来源签名与准入体系。这就像是为智能体建立了一个专属的“可信应用商店”。只有经过安全审核并附带数字签名的工具,才被允许进入Agent的调用列表。这一机制从源头上阻断了恶意插件和被篡改的API混入系统的可能性,有效防御了针对智能体工具链的供应链攻击。
最小权限沙箱: 当智能体真正执行操作时,百度大模型安全护栏提供了沙箱隔离技术。所有的工具调用都在一个受限的隔离环境中运行,严格限制其资源访问边界。同时,遵循最小权限原则,Agent仅能获得完成当前任务所需的最低权限。此外,架构中还集成了配额与节流控制,通过限制时间窗口内的操作次数、步数上限和循环检测,防止智能体因逻辑死循环或恶意攻击导致的资源滥用。
参数级校验:在微观的API交互层面,百度大模型安全护栏实施了参数级Schema验证。系统会对智能体发出的每一个API调用参数进行严格的类型检查、范围约束和注入过滤,确保输入符合业务规则,防止SQL注入或命令注入等传统Web攻击手段通过Agent这一新入口渗透系统。
敏感动作机制:对于涉及资金往来、数据删除等高风险操作,技术防御之外必须引入人的智慧。百度大模型安全护栏构建了“敏感动作确认与回滚”机制。在执行关键决策前,智能体会触发“二次确认”,引入人机协同流程,由人工审批通过后方可执行。同时,百度大模型安全护栏会完整保留操作日志和状态快照,支持失败情况下的回滚与补偿动作快速介入。

智能体安全防护体系建设思路
通过《从“可回答”到“可执行”:大模型与智能体安全建设实践》的演讲分享,展示了百度安全在AI安全领域的深厚技术积淀,为行业提供了一份极具参考价值的实践样本。从“可回答”到“可执行”,AI能力的跃升要求安全防御必须同步进化。百度安全通过构建这套集策略管控、运行时隔离、供应链治理与人机协同于一体的防护架构,正在将“构建安全共识,共筑可信未来”的愿景转化为可落地的产业实践。未来,百度安全将依托中国人工智能产业发展联盟(AIIA)安全治理委员会这一重要平台,继续发挥技术领军企业的示范作用,与产业界共同探索人工智能安全治理的最佳实践。我们将致力于把自身在智能体安全、大模型攻防及数据安全等领域的深厚积累转化为行业共识,护航人工智能技术在更安全、更可信的轨道上赋能千行百业,共筑数字经济繁荣发展的安全基石。