DeepSeek 数据泄露:12,000 余条硬编码 API 密钥与密码曝光
HackerNews 编译,转载请注明出处: 最新分析发现,在公开爬取的网络数据中,DeepSeek 的 11,908 条 API 密钥、密码及身份验证令牌遭到曝光。 据网络安全公司 Truffle Security 披露,这一研究凸显了 AI 模型在未经筛选的互联网数据训练下,可能会内化并复现不安全的编码模式。 此前已有研究表明,大型语言模型(LLM)常建议在代码中硬编码凭据,这引发了关于训练数据如何影响开发实践的讨论。 Truffle Security 通过扫描 Common Crawl 2024 年 12 月的数据集(约 400TB 数据,覆盖 47.5 万个网站、26.7 亿个网页),利用其开源工具 TruffleHog 发现: 11,908 条有效凭据,可用于访问 AWS、Slack、Mailchimp 等服务; 276 万个网页 含有暴露的凭据,其中 63% 的密钥 被多个域名重复使用; WalkScore API 密钥 在 1,871 个子域 上重复 57,029 次,暴露范围极广。 特别值得注意的是,部分数据集涉及高风险暴露,例如: AWS 根密钥 直接嵌入前端 HTML 代码; 同一网页的聊天功能中 硬编码了 17 个独特的 Slack webhook。 Mailchimp API 密钥泄露尤为严重,超 1,500 例,且大多直接嵌入客户端 JavaScript 代码,这种做法不仅助长了网络钓鱼攻击,也增加了数据泄露风险。 Common Crawl 的数据集包含 90,000 份 WARC 文件,存储了网站爬取的 HTML、JavaScript 及服务器响应数据。 Truffle Security 使用 20 节点 AWS 集群 处理这些存档,借助 awk 拆分文件,并通过 TruffleHog 逐一验证密钥是否仍然有效。该工具能区分有效凭据(可用于服务认证)和无效字符串——这是 LLM 训练时无法做到的关键步骤。 研究团队在分析过程中面临基础设施挑战:WARC 数据流式处理效率低,初期严重拖慢分析进度,而 AWS 优化后下载速度提升了 5-6 倍。 尽管面临技术难题,研究团队仍秉持负责任的披露原则,与 Mailchimp 等供应商合作,撤销了数千条泄露的密钥,避免了逐个联系网站所有者的低效通知方式。 这一研究揭示了一项重大安全隐患:基于公开数据训练的 LLM 可能继承其中的不安全模式。尽管 DeepSeek 采用额外的安全防护措施(如微调、对齐技术和提示限制),但硬编码凭据的广泛存在,使得不安全实践易于被模型学习并传播。 此外,非功能性凭据(如占位符令牌)也加剧了问题,因为 LLM 在代码生成时无法识别其有效性。 Truffle Security 警告,在多个客户端项目中重复使用 API 密钥 会带来极大风险。例如,一家软件公司因在多个客户域名间共享 Mailchimp 密钥,导致所有关联账户均面临攻击风险。 为减少 AI 生成代码中的安全漏洞,Truffle Security 建议: 在 AI 编码工具中引入安全防护措施,如 GitHub Copilot 的自定义指令,以强制执行禁止硬编码密钥的政策; 扩展密钥扫描范围,涵盖存档的网络数据,以减少历史泄露数据进入 LLM 训练集的风险; 采用“宪法 AI”技术,使 LLM 生成代码时更符合安全最佳实践,降低敏感信息的无意泄露。 随着 LLM 在软件开发中的影响力持续上升,确保训练数据的安全性已不再是可选项,而是构建安全数字未来的基础。 消息来源:Cybersecurity News; 本文由 HackerNews.cc 翻译整理,封面来源于网络; 转载请注明“转自 HackerNews.cc”并附上原文