英国率先启动 1500 万英镑人工智能对齐项目
HackerNews 编译,转载请注明出处: 英国人工智能安全研究所(AI Security Institute)联合国际合作伙伴启动1500万英镑专项研究计划,聚焦人工智能对齐(AI alignment)领域。该项目旨在确保先进AI系统始终按预期目标运作,防止其行为偏离开发者设定的目标、政策与要求。 核心合作方 加拿大人工智能安全研究所、加拿大高等研究院(CIFAR)、施密特科学基金会、亚马逊云服务(AWS)、Anthropic、Halcyon Futures、安全人工智能基金、英国研究与创新署(UKRI)及高级研究与发明署(ARIA)共同参与。 研究紧迫性 英国科技大臣彼得·凯尔(Peter Kyle)指出:“先进AI系统已在部分领域超越人类能力,使该项目变得空前紧迫。人工智能对齐致力于确保系统始终符合人类最佳利益——这正是研究所自成立以来的核心使命:守护国家安全,防范技术演进中AI可能引发的重大风险”。他同时强调:“负责任地发展AI需全球协同努力,此基金将推动AI更可靠、更可信,助力经济增长、优化公共服务并创造高技能岗位”。 AI错位风险分类 故意错位:攻击者操控AI系统实施定向攻击 无意错位:因防护机制缺失导致系统行为失控 具体威胁形态包括: 模型投毒:攻击者篡改训练数据,诱发输出偏见或植入后门 提示注入:恶意指令突破系统防护,实现越狱操控 数据泄露:设计缺陷致AI误披露敏感信息 资源消耗失控:无约束的自我复制行为耗尽系统资源 研究目标 项目将开发创新技术,确保AI系统在能力提升过程中保持目标一致性,增强透明度及人类监管有效性。此举回应了AI自主性日益增强背景下,全球对系统可控性的迫切需求。 消息来源:infosecurity-magazine; 本文由 HackerNews.cc 翻译整理,封面来源于网络; 转载请注明“转自 HackerNews.cc”并附上原文