犹他大学 | 探索深度学习模型中的固有后门 安全学术圈 3 weeks 5 days ago 本文对固有后门进行了系统性研究,发现它们广泛存在于干净模型中,与注入型后门一样具有危险性,是一种新型攻击媒介。
澳大利亚纽卡斯尔大学和重庆大学 | 利用预训练的语言模型释放基于语义的日志解析的真正潜力 安全学术圈 1 month ago 软件密集型系统通常会生成控制台日志,用于故障排除。日志解析旨在将日志消息解析为特定的日志模板,通常是实现自动化日志分析的第一步。
国防科技大学 | 基于知识注入的生成式代码模型安全强化框架 安全学术圈 1 month ago 本研究针对检索增强代码生成 (RACG) 系统中严峻的知识库投毒威胁,提出了一种名为 CodeGuarder 的主动安全强化框架。
粤港澳大湾区数字经济研究院 | THINK-ON-GRAPH 2.0 安全学术圈 1 month ago 作者引入了Think-on-Graph 2.0 (ToG-2),这是一个混合RAG框架,它以紧密耦合的方式迭代地从非结构化和结构化知识源中检索信息。
华中科技大学 | 基于优化的针对作为评判器的LLM的提示注入攻击 安全学术圈 1 month 1 week ago 本文展示了作为评判器的LLM在面对提示注入攻击时的脆弱性,并提出了JudgeDeceiver,一个基于优化的框架,能够自动生成注入序列,从而操纵作为评判器的LLM的选择。
电子科技大学 | 针对自定义LLM的指令后门攻击 安全学术圈 1 month 1 week ago 本文提出了针对使用自定义化的大语言模型应用的指令后门攻击,攻击者通过精心设计的提示在输入包含预定义触发器时控制自定义 LLM 的输出。
阿里巴巴团队 | 监督微调数据构成如何影响大型语言模型的能力 安全学术圈 1 month 2 weeks ago 本研究特别关注在SFT过程中,数学推理、代码生成和通用人类对齐能力这三者之间数据构成的相互作用。
香港科技大学 | 从大型语言模型中提取专门化代码能力的可行性研究 安全学术圈 1 month 2 weeks ago 本文探讨了对LLMs发起模仿攻击以提取其专门化代码能力(如“代码合成”和“代码翻译”)的可行性。