XCon x HG议题 数字人安全
《XCon×HG议题:数字人安全攻防白皮书》系统梳理了数字人直播、AI伴侣到元宇宙应用的完整生态架构,揭示提示词注入、TTS语音伪装、Deepfake身份伪造、供应链投毒等十大攻击面及真实案例;并给出覆盖模型、数据、内容、应用到基础设施的五层防御体系,为企业在爆发式增长中守住品牌、资金与合规红线。
《XCon×HG议题:数字人安全攻防白皮书》系统梳理了数字人直播、AI伴侣到元宇宙应用的完整生态架构,揭示提示词注入、TTS语音伪装、Deepfake身份伪造、供应链投毒等十大攻击面及真实案例;并给出覆盖模型、数据、内容、应用到基础设施的五层防御体系,为企业在爆发式增长中守住品牌、资金与合规红线。
《Prompt Hacks:终极指南》系统梳理了生成式 AI 面临的提示注入、越狱等攻击手法,并给出10类威胁模型与对应防御方案。文件揭示了 LLM 无法区分系统指令与用户输入的根本原因,展示攻击者如何通过角色扮演、故事编造、编码混淆、令牌注入等方式窃取数据或输出有害内容;同时提供红队演练、语义防火墙、实时观测、合规审计等落地策略,帮助企业守护品牌、资金与运营安全。NeuralTrust 的 AI Gateway、自动化红队、可观测平台三大工具贯穿始终,为零信任架构下的 AI 部署提供一站式解决方案。
传统安全运营正面临巨大的挑战,过度依赖专家团队,人力资源和知识有限等问题尤为突出。碳基生命的生理极限决定了在未来网络安全攻防战场,单纯依靠传统安全工具和方法是无法赢得战争的,必须借助当前最前沿的人工智能技术。
本议题将重点分享多个安全运营场景中使用大模型技术改进和增强现有的安全运营工作机制,全面提升安全运营的水准,包括:如果充分发挥智能体、大模型生成能力、编码能力实现几十倍甚至上百倍的运营效率提升。
当然,大模型的应用并非没有挑战,尤其是“幻觉”问题——即大模型在某些情况下可能会做出错误的推理和判断,从而导致误报或漏报。本议题在讨论大模型应用安全运营场景时,还将介绍作者所在团队过去的一些技术尝试,介绍如何克服“幻觉”问题,降低AI出错的概率,让大模型给出更加精准和可靠的决策结果。
通过对这些技术细节的深入分析,旨在帮助与会者理解大模型在安全运营中的实际应用价值,并展望其未来的发展方向。
报告以“AI是新质生产力”为主线,指出算力、模型、数据、应用正形成指数级放大效应,同时带来幻觉、伦理、攻防失控三大安全新图景。中国提出“全球共治、分级韧性”治理思路,将IT→DT→AI驱动的安全演进划分为三个阶段,倡导用AI提升自身安全、用韧性框架保障AI发展,并发布联合国首个人工智能全球决议,为强国建设与民族复兴守住底线、抓住机遇。
邬江兴院士指出,数字经济时代数据成为关键生产要素,但“存储程序控制”的先天基因缺陷使网络空间安全威胁愈演愈烈。为此提出中国原创的“内生安全+拟态防御”范式:通过动态异构冗余(DHR)构造,把未知漏洞扰动转化为可控概率问题,实现设计安全、默认安全、开箱即用。六年全球众测证明,采用内生安全架构的产品均未攻破,已纳入11项通信行业标准,成为数字生态底层驱动范式转型的“钢筋骨架”。
安恒信息 范渊在2024西湖论剑提出“AI+安全”全景方案:以恒脑大模型与隐私计算为底座,打通数据“供得出、流得动、用得好”全链路;AI分类分级效率提升30倍,隐私计算让跨域数据“可用不可见”。AI安全智能体在亚运、大运实战中告警处置效率提升200%,实现“智能辅助驾驶”式运营。同时发布生成式AI安全防御框架,覆盖训练、部署、运营全周期风险治理,为企业数字化与绿色化协同转型保驾护航。
龚克在《西湖论剑》提出:以人工智能为“使能技术”,在信创安全底座之上实现绿色化与数字化协同转型。报告呼应联合国“AI for SDGs”决议,强调大模型即服务(MaaS)降低门槛,通过智能监测、治理、决策重塑能源、制造、环保全链条;同时以信创自主可控保障数据与模型安全,助力中国抢占绿色新质生产力制高点。
汪玉凯教授在《西湖论剑》指出:数字经济正成为新质生产力的核心引擎,其关键在于平台、数据、互联共享三大新要素的协同放大。报告聚焦“制造强国”主战场,提出以“人工智能+工业互联网”提升智能制造水平;通过数据要素“流动—交易—价值实现”五大主体闭环,释放倍增效应;同时警示网络安全与算力一体化仍是瓶颈。政府应回归法治与政策营造,让市场与民营企业担当主角,方能在2025年把数字经济占比从当前水平拉升至10%。
《LLM越狱攻击预防与框架 v3.3》系统梳理了大语言模型从指令注入到多模态对抗、表征工程到智能体工具滥用的全部越狱路径,配套可落地的防御体系(对齐-检测-沙箱-监控)。文档以威胁模型为纲,将攻击按提示工程、输出结构、优化、模糊、组合、MCP滥用六大类拆解,并提供测试脚本与红队演练方案,帮助安全团队在模型全生命周期内快速定位脆弱点、迭代加固。适用于AI产品、红队及合规审计人员。
Gartner《2025安全运营成熟度曲线》系统梳理了从漏洞管理到持续威胁暴露管理(CTEM)的演进路径,突出AI SOC代理、暴露评估平台(EAP)、对抗性暴露验证(AEV)等前沿技术的成熟度与商业价值。报告强调将传统资产可见性、威胁检测与响应、身份威胁检测与响应、网络检测与响应等能力整合为可编排、可度量的运营体系,以应对云原生、混合办公及CPS(网络-物理系统)带来的新攻击面。同时提供优先级矩阵,帮助企业在2年内快速落地高价值场景,或在5-10年内布局变革性架构如网络安全网格(CSMA)。
本文是Black Hat USA 2025议题《AI Agents for Offsec with Zero False Positives》的讲稿,作者Brendan Dolan-Gavitt提出“AI代理+确定性验证”方案,解决传统LLM在漏洞挖掘中的高误报难题。通过“证据-验证”双阶段流程:LLM先定位可疑点,再用非AI脚本(flag回显、时延差异、缓存投毒等)进行可复现验证,已在Docker Hub 2500万镜像扫描中捕获174个漏洞、22个CVE,误报率趋近零。文中给出Redmine权限绕过、Druid SSRF、MapProxy文件读取等实战案例,并开源自动化工具链,为大规模安全测试提供新范式。
本书是欧盟“支持专家库”项目官方教材,专为AI、隐私与网络安全交叉人才写作。全书以MLOps生命周期为主线,系统讲解如何在训练、部署、监控AI系统的每个环节同时满足《人工智能法案》与GDPR要求:从隐私增强技术(差分隐私、联邦学习、合成数据等)到安全代码开发、模型测试、可信运行环境。书中用大量案例与练习帮助企业在处理个人数据时降低法律与伦理风险,实现“高性能+高合规”的AI落地。
这份文档详细介绍了火山引擎在AI领域的安全保障实践。首先,文档概述了火山引擎的AI业务架构,该架构涵盖了从底层AI基础设施(AI Infra)、大模型服务平台(MaaS)到智能体开发运维(Agent DevOps)和最终的AI智能体(AI Agent)应用的全方位服务。
文档的核心部分阐述了火山引擎的AI安全保障方案,强调“安全是一切Agent的基础”。该方案构建了一个多层次的纵深防御体系,包括针对大语言模型(LLM)本身的提示词攻击防护、模型平台安全;针对Agent和工具的协议安全、沙箱防护;以及覆盖底层基础设施和平台治理的全面安全措施。
文档重点分析了AI智能体场景中MCP(Model-as-a-Service Connector Protocol)面临的七大核心安全风险,例如传统的Web服务漏洞、工具描述投毒、间接提示词注入、恶意“地毯式骗局”(Rug Pull)以及企业数据安全风险等。
为应对这些挑战,火山引擎设计了MCP安全架构。该架构包含三大核心策略:
演示首先概述了LLM面临的普遍安全风险,并引用OWASP的报告,强调“提示注入”是首要威胁。近期多所国际知名大学的论文被发现植入了操控AI给出好评的隐形指令,这便是提示注入的实例。研究数据表明,与直接提示注入相比,间接提示注入(IPI)的攻击成功率要高得多,因为它将恶意指令隐藏在模型处理的网页、文档等外部内容中,模型在解析时会自动执行。
接着,文稿深入分析了IPI的攻击原理。其有效性的关键在于模型本身无法区分“指令”和“数据”,且缺乏“不执行外部数据中指令”的意识。实证研究表明,即使是更强大的模型,也普遍受IPI影响,且攻击成功率更高,而现有的缓解技术(如提示工程和微调)虽有改善,但效果有限,并可能牺牲模型的实用性。
为了说明其危害,文稿展示了一个真实的攻击链条:攻击者将恶意指令(如窃取历史对话、钓鱼用户凭据)植入PDF文档中。当用户上传该文档让AI进行翻译或总结时,AI会执行恶意指令,将用户的历史对话记录发送到攻击者服务器,或生成一个仿冒的登录页面来骗取用户账号密码。测试显示,国内外多款主流大模型均存在此类风险。
最后,针对IPI攻击,演示提出了一个由输入过滤、指令结构强化和模型自身调优构成的纵深防御体系。具体措施包括:在模型处理输入前进行恶意指令检测;在架构上明确区分系统指令、用户指令和外部内容;以及通过安全增强微调,提升模型自身区分指令与数据的能力。
该报告深入探讨了AI Agent应用面临的攻击面。首先,报告概述了AI Agent的定义、决策流程(感知、规划、行动)和关键特性(自主性、适应性等),并介绍了其在客服、办公助手等领域的广泛应用。其核心技术架构由大型语言模型(Model)、代理运行时(Agent Runtime)、功能工具(Tools)以及底层支持服务(Supporting Services)构成。
报告的核心部分详细剖析了AI Agent各组件的潜在安全风险。 1. 大型语言模型(LLMs):主要面临提示词注入攻击,攻击者可通过直接或间接方式注入恶意指令,从而操控Agent执行非预期的操作,如窃取数据或执行恶意代码。报告强调,不仅用户输入不可信,模型生成的内容同样需要被视为不可信来源。 2. 消息传输:以WebSocket为例,若缺乏正确的安全配置(如Origin校验),易遭受跨站WebSocket劫持(CSWSH),导致聊天数据被窃取。 3. 输入与输出处理:对模型生成内容的处理不当会引发严重漏洞。例如,直接执行模型生成的代码可能导致远程代码执行(RCE),而将模型输出渲染为HTML则可能造成跨站脚本(XSS)攻击。 4. 工具(Tools):作为Agent与外部世界交互的桥梁,工具是风险最集中的区域。数据分析功能可能导致代码执行,网页访问功能可能引发服务端请求伪造(SSRF),数据库操作则可能存在SQL注入风险。 5. 沙盒环境:用于执行代码的沙盒若配置不当,如网络或文件系统隔离存在缺陷,攻击者可能实现沙盒逃逸,进一步危害宿主系统。
最后,报告对未来防御方向进行了展望,提出了三大关键策略:遵循最小权限原则限制Agent能力;通过动态监控实时追踪并拦截Agent的异常意图与行为;以及将传统应用安全与大模型安全相结合,构建纵深防御体系。
文稿深入探讨了随着大型语言模型(LLM)与AI智能体(Agent)能力日益强大,所带来的严峻安全挑战。
报告指出了几大核心风险领域:
这些风险源于模型指令遵循、泛化、推理等能力的提升。
为应对这些挑战,报告提出了一套多层次的Agent安全设计框架。该框架以模型安全对齐为基础,通过对齐算法(SFT, RL)和数据,使LLM具备基本的安全与权限意识。在此之上,通过Agent框架层面的安全设计,如Prompt优化、角色权限管控等进行加固。最后,设置输入输出过滤作为兜底策略,拦截恶意内容。
腾讯 TEG 安全平台部代码安全负责人张栋已确认出席,并发表题为《大模型驱动安全升级:腾讯代码安全应用实践》的主题演讲。安全漏洞是每一个企业都必须面对的问题,处理不好动辄影响服务可用性、导致核心业务敏感数据泄露,对业务及公司造成不良影响。基于此在企业研发体系中,绝大多数企业会选择通过安全左移在软件开发生命周期的早期阶段进行风险识别和安全问题修复。但是,传统的静态分析工具本身因其检测方式导致的覆盖有限、高误报、修复效率低等问题,增大了业务团队负担,致使业务对安全问题响应慢、体感差。在本次分享中,张栋将结合腾讯内部的实践经验,深入探讨大模型在代码安全场景中的应用,分享在不同发展阶段其遇到的挑战及其解决方案。
演讲提纲 1.代码安全现状及问题分析PyTorch 是一个基于 Torch 库的机器学习库,广泛应用于计算机视觉和自然语言处理等领域。它是最受欢迎的深度学习框架之一。
然而,尽管 PyTorch 拥有强大的功能,但其背后潜藏着潜在的安全风险。最初,PyTorch 使用 pickle 保存模型,但由于 pickle 反序列化的不安全性,加载模型时存在远程代码执行(RCE)的风险。随后,PyTorch 引入了 weights_only 参数来增强安全性。官方文档指出,weights_only=True 被认为是安全的,并建议使用它,而不是 weights_only=False。
多年来,weights_only=True 的安全性一直没有受到挑战。然而,我们的研究揭示了一些令人不安的事实。我们发现,使用 weights_only=True 的 torch.load 支持 TorchScript,这促使我们深入研究 TorchScript 的内部工作机制。在一段时间的研究后,我们发现了几个漏洞,并最终实现了远程代码执行(RCE)。我们迅速将这一发现报告给了 PyTorch,PyTorch 确认了该漏洞并为我们分配了 CVE-2025-32434。这个发现颠覆了已有的认知,并对许多 AI 应用产生了深远的影响。我们将在本报告中深入分析该漏洞的影响。
在本次简报中,我们将介绍如何获得灵感并发现这一有趣的漏洞。同时,我们的发现再次验证了这句话:“你曾以为的安全港,实际上是敌人的水域。”
本议题将探讨如何结合大模型与MCP技术,实现对程序的静态分析、动态调试。基于这些技术,可以让AI参与漏洞研究,提升漏洞挖掘效率,并配合实际案例,展示AI在漏洞方面的工作能力。
《如何训练AI帮我调漏洞》以实战视角拆解大模型在漏洞挖掘与复现中的落地路径:先通过Function Calling打通LLM与IDA、GDB等工具的“最后一公里”,再借助MCP协议把静态反编译、动态调试、PoC生成、流量监控等异构能力串成一条Agent工作流。W22现场演示用AI编辑器+ida-mcp-server秒读ELF、定位strcpy溢出;用gdb-mcp-server远程下断、单步追踪内存变化;最终自动化复现Zimbra未授权RCE与未公开网络设备栈溢出漏洞。文档给出完整配置、脚本与踩坑提示,让AI真正“动”起来.
本议题聚焦于面向复杂场景的模型训练与架构设计,提出多种解决方案提升模型在网络安全场景下的理解与推理能力。在此方案下的实验中,体现了自动渗透、自动修复、自动信息收集、自动打靶、参与CTF竞赛等通用能力,初步具备无需人工干预的通用执行能力。
《让安全大模型不做花瓶》提出以RAG+ToT(Tree-of-Thoughts)架构破解大模型在安全场景中的上下文瓶颈,通过“分解-探索-剪枝”三阶段推理,把复杂网安任务拆成可验证的子链,再按优先级回溯生成最优策略。我们使用230M网安图书、1.1B公开文章及CTF Write-up继续预训练Hive-0模型,并引入GRPO强化学习与人类红队对抗,实现漏洞挖掘、渗透测试、告警研判等场景的自动化决策。配套浏览器驱动、Console工具链,支持一键调用扫描器、取证脚本,形成“人机协同-无人对抗”的闭环,真正让安全大模型从“问答玩具”变成可落地的防御生产力。