Seebug Paper

从效率到泄露——联邦语言模型微调中的隐私后门

3 days 10 hours ago

作者：Shanghao Shi, Chaoyu Zhang, Heng Jin, Yang Xiao, Yevgeniy Vorobeychik, William Yeoh, Ning Zhang, Y. Thomas Hou, Wenjing Lou 原文链接：https://arxiv.org/pdf/2606.20553 摘要联邦学习（FL）使多方能够在不共享原始数据的情况下，协作微调面向...

NRT-Bench：面向安全关键控制室中 LLM 智能体的多轮红队测试基准

Seebug Paper

5 days 9 hours ago

作者：Hanwool Lee, Dasol Choi, Bokyeong Kim等原文链接：https://arxiv.org/pdf/2606.20408 摘要大型语言模型（LLM）智能体越来越多地被提议作为安全关键系统的监督组件，但它们在持续、自适应对抗压力下的鲁棒性仍然缺乏充分表征。本文提出NRT-Bench，一个用于对担任安全关键系统操作员的LLM智能体进行多轮红队测试的基准，具体实例...

面向多种防御策略的自动化越狱攻击

Seebug Paper

1 week 6 days ago

作者：Qi Wang, Chengcheng Wan等原文链接：https://arxiv.org/pdf/2606.16751 摘要大型语言模型（LLM）在广泛的任务中展现出了卓越的能力。然而，由于其易受对抗性提示攻击的影响，其安全性仍然是一个关键问题。在本文中，我们提出了UniAttack，这是一个从防御视角设计的对抗性测试框架，用于系统性地构建有效的黑盒攻击提示。与以往依赖静态模板或迭代...

ZERO-APT：面向智能防御下 LLM 驱动自动化渗透测试的闭环对抗框架

Seebug Paper

2 weeks 4 days ago

作者：Anlan Zheng, Tiantian Zhu 原文链接：https://arxiv.org/html/2606.05567v1 摘要 LLM驱动的自动化渗透测试智能体通常是在既不会检测也不会响应攻击的静态目标上进行评估的，因此它们在智能防御下的行为仍然未经测试。多步攻击链的因果一致性同样依赖于不稳定的LLM推理，而智能体的决策对人类分析人员来说仍然是不透明的。这三个缺陷——真实性、一致...

软件工程的终结：AI智能体如何从根本上重构软件范式

Seebug Paper

2 weeks 6 days ago

作者：Zhenfeng Cao 原文链接：https://arxiv.org/pdf/2606.05608 摘要半个多世纪以来，软件工程一直建立在一个基本前提之上：人类工程师负责拆解问题，将决策逻辑编码为静态代码，并在需求演变时手动调整代码。本文认为，AI智能体（AI agents）的出现——即以大型语言模型作为主要推理引擎，将代码动态生成与丢弃作为工具性资源的系统——并非渐进式的改进，而是对软...

大语言模型后训练中的顺序数据投毒

Seebug Paper

3 weeks ago

作者：Jack Sanderson, Yihan Wang等译者：知道创宇404实验室翻译组原文链接：https://arxiv.org/html/2606.04929v1 摘要大语言模型后训练包含多个阶段，例如监督微调（SFT）以及随后的人类反馈强化学习（RLHF）或直接偏好优化（DPO），每个阶段的数据来自不同的、可能不可信的来源。现有文献假设数据投毒攻击可能发生在每个训练阶段，但忽略了...

BLAST：面向协作多智能体深度强化学习系统的隐秘后门杠杆攻击

Seebug Paper

1 month ago

作者：Jing Fang, Saihao Yan等译者：知道创宇404实验室翻译组原文链接：https://arxiv.org/html/2501.01593v2 摘要现有研究表明，协作多智能体深度强化学习（c-MADRL）极易遭受后门攻击威胁。一旦观测到后门触发器，系统将执行恶意行为，引发任务失败或达成攻击者恶意目的。然而现有后门攻击存在诸多缺陷：瞬时触发模式隐蔽性差、需借助额外网络完成后...

潜在对抗检测：基于大模型激活自适应探测的多轮攻击检测

Seebug Paper

1 month ago

作者：Prashant Kulkarni 译者：知道创宇404实验室翻译组原文链接：https://arxiv.org/html/2604.28129v1 摘要多轮提示注入遵循建立信任—话题转向—恶意升级的固定攻击路径，但文本层防御手段无法识别单轮对话看似无害的隐蔽攻击。本文发现，该攻击路径会在模型残差流中留下可识别的激活层特征：攻击每个阶段的切换都会引发激活向量偏移，最终累积路径长度远超正常...

GLiGuard：面向大语言模型安全防护的模式条件分类方法

Seebug Paper

1 month 2 weeks ago

作者：Urchade Zaratiana, Mary Newhauser, George Hurn-Maloney, Ash Lewis 译者：知道创宇404实验室翻译组原文链接：https://arxiv.org/html/2605.07982v1 摘要保障大语言模型（LLM）输出安全合规、符合政策要求，需要能跨多安全维度实时扩展的内容审核机制。然而，当前最优的安全护栏模型均基于70亿–27...

基于大语言模型的 AI 智能体安全威胁与防御系统性综述——分层攻击面框架

Seebug Paper

1 month 2 weeks ago

作者：Kexin Chu 译者：知道创宇404实验室翻译组原文链接：https://arxiv.org/pdf/2604.23338v2 摘要智能体AI系统可跨多会话规划、保留记忆、调用外部工具并与对等智能体协同，无状态大语言模型则不具备这些能力。现有安全分类体系按攻击类型（如提示注入、越狱）划分威胁，却未说明脆弱的架构组件或威胁显现的时间尺度。本文直接解决这些结构性问题，提出分层攻击面模型（...

ReTokSync：面向生成式语言隐写的自同步分词消歧方法

Seebug Paper

1 month 3 weeks ago

作者：Yaofei Wang, Rui Wang, Weilong Pang等译者：知道创宇404实验室翻译组原文链接：https://arxiv.org/html/2604.25486v1 摘要生成式语言隐写（GLS）通过将秘密信息嵌入自然语言生成过程实现隐蔽通信。然而在实际部署中，GLS易受分词歧义影响：相同的表层文本在接收端可能被重新分词为不同的token序列，破坏通信双方共享的解码状...

素域 PINI：后量子 NTT 掩码的机器验证合成定理

Seebug Paper

1 month 3 weeks ago

作者：Ray Iskander，Khaled Kirah 译者：知道创宇404实验室翻译组原文链接：https://arxiv.org/abs/2604.25878v1 摘要本文是后量子密码掩码数论变换（NTT）硬件形式化验证分析系列论文的第六篇。第一篇论文[1]建立了 QANARY 平台的结构依赖分析，第二篇论文[2]量化了部分 NTT 掩码下的安全裕度。布尔掩码的合成理论通过无干扰（NI）...

Google DeepMind：AI 智能体陷阱

Seebug Paper

2 months ago

作者：Matija Franklin, Nenad Tomašev等译者：知道创宇404实验室翻译组原文链接：https://blog.qiaomu.ai/api/images/document/2026/04/603f0cae8cd8ab94-ai-agent-trap.pdf 摘要自主AI智能体日益在网络中自主行动，它们面临一种全新挑战：信息环境本身。由此产生了一个关键安全漏洞，我们称之...

合法终端管理软件遭滥用：疑似银狐攻击事件分析与溯源

Seebug Paper

2 months 2 weeks ago

作者：知道创宇高级威胁情报团队一、事件概述近期，我们在客户现场应急响应中排查到一起新型攻击事件。攻击者伪造常用工具安装包诱导执行，随即部署一款带有合法数字签名的终端管理软件。经技术溯源确认，该程序具备主机信息收集、远程控制等完整恶意能力，其 C2 基础设施与 “银狐” 高度关联。由于合法数字签名的天然 “免杀” 特性，该恶意程序可轻易绕过主流杀毒软件检测，实现隐蔽入侵与长期控制。 ...

合法终端管理软件遭滥用：疑似银狐攻击事件分析与溯源

Seebug Paper

2 months 2 weeks ago

SkillTrojan：针对基于技能的智能体系统的后门攻击

Seebug Paper

2 months 2 weeks ago

作者：Yunhao Feng, Yifan Ding, Yingshui Tan等译者：知道创宇404实验室翻译组原文链接：https://arxiv.org/html/2604.06811v1 摘要基于技能的智能体系统通过组合可复用技能完成复杂任务，在提升模块化与可扩展性的同时，引入了尚未被充分研究的安全攻击面。本文提出SkillTrojan，一种针对技能实现而非模型参数或训练数据的...

SkillTrojan：针对基于技能的智能体系统的后门攻击

Seebug Paper

2 months 2 weeks ago

作者：Yunhao Feng, Yifan Ding, Yingshui Tan等译者：知道创宇404实验室翻译组原文链接：https://arxiv.org/html/2604.06811v1/https://arxiv.org/html/2604.06811v1 摘要基于技能的智能体系统通过组合可复用技能完成复杂任务，在提升模块化与可扩展性的同时，引入了尚未被充分研究的安全攻击面。本文提...

GUARD‑SLM：面向小语言模型、基于令牌激活的越狱攻击防御方法

Seebug Paper

2 months 3 weeks ago

作者：Md. Jueal Mia1, Joaquin Molto1, Yanzhao Wu1, M. Hadi Amini 译者：知道创宇404实验室翻译组原文链接：https://arxiv.org/html/2603.28817v1 摘要小语言模型（SLM）正成为大语言模型（LLM）高效且经济可行的替代方案，在计算成本与延迟显著更低的情况下，仍能提供具有竞争力的性能。这些优势使小语言...

GUARD‑SLM：面向小语言模型、基于令牌激活的越狱攻击防御方法

Seebug Paper

2 months 3 weeks ago

作者：Md. Jueal Mia1, Joaquin Molto1, Yanzhao Wu1, M. Hadi Amini 译者：知道创宇404实验室翻译组原文链接：https://arxiv.org/html/2603.28817v1/https://arxiv.org/html/2603.28817v1 摘要小语言模型（SLM）正成为大语言模型（LLM）高效且经济可行的替代方案，在计算成本...

静默颠覆：通过卫星系统供应链植入物实施的传感器欺骗攻击

Seebug Paper

3 months ago

作者：Jack Vanlyssel, Gruia-Catalin Roman, Afsah Anwar 译者：知道创宇404实验室翻译组原文链接：https://arxiv.org/html/2603.10388v1 摘要欺骗攻击是地面系统最具破坏性的网络威胁之一，而在太空中这类威胁愈发危险——卫星难以在轨维修，且运营方依赖精准遥测数据保障任务成功。一旦遥测数据遭篡改，整个星载任务将陷入...

Checked

10 hours 9 minutes ago

知道创宇404实验室安全研究成果发布平台

URL

https://paper.seebug.org

Seebug Paper feed

Seebug Paper

Managed ad