前沿 AI 资讯(2026-01-12):LLM 安全从“防提示注入”走向全链路治理
2026-01-12
随着工具调用与多智能体系统进入生产,LLM 安全的边界变了:你不再只关心“模型有没有被套话”,而要关心“模型能不能越权做事”。
风险从内容输出,转向动作执行
当 Agent 可以调用工具(发起请求、写入工单、操作后台、执行脚本),攻击面会沿链路扩散:
- 提示注入:让模型忽略系统指令,诱导调用高权限工具。
- 数据投毒:通过知识库、网页内容或文档注入恶意指令片段。
- 越权与横向移动:工具层鉴权不严,导致访问本不该访问的资源。
- 隐私泄露:模型在回答中暴露日志、凭据或用户敏感信息。
安全落地:把工具变成“最小权限”的 API
2026 年初的主流实践更像传统安全工程:最小权限、强审计、可回滚。具体建议:
- 工具分级:只读、低风险写入、高风险写入;高风险必须二次确认。
- 强鉴权:工具接口本身做权限校验,不依赖模型自觉。
- 输入净化:对外部内容(网页、文档、检索片段)做隔离与标注。
- 输出约束:结构化输出、白名单字段、限制可生成的动作参数。
- 审计与回放:每次工具调用可追溯,支持一键回放与复盘。
“安全”也要可观测
越来越多团队开始把安全事件纳入可观测体系:哪些请求触发了敏感工具、哪些提示包含注入特征、哪些调用链出现异常分支。没有数据就无法治理,也无法证明治理有效。
本周建议:先做三件最划算的事
- 把所有工具按风险分级,并给高风险工具加确认与配额。
- 让工具层鉴权独立于模型,所有请求必须可审计。
- 把检索片段标注为“不可信输入”,避免混进系统指令。