布里斯托尔失败:用于评估儿童犯罪风险的AI模型因致命错误被停用
布里斯托尔当局以及埃文郡和萨默塞特郡警方被迫停止使用至少两种旨在评估儿童犯罪风险的人工智能模型。原因是其准确率极低且算法完全不透明,独立审计人员因缺乏源代码和变量列表而无法进行核查。
系统如何运作及为何出现故障
该系统基于布里斯托尔市议会于2016年启动的"思考家庭数据库"(Think Family Database)。该数据库整合了警方报告和社会数据——从住房状况、心理健康问题到逃学信息和免费午餐记录。据估计,该数据库可能包含近50万居民的信息,且数据收集是在未经公民直接同意的情况下进行的,依据的是政府机构间信息共享的法律规定。
基于该数据库构建了23个机器学习模型,包括预测盗窃、法庭缺席和家庭暴力风险。然而,正是用于评估儿童威胁的模型最为脆弱。这些模型除了警方和市政数据外,还加载了慈善组织Barnardo's提供的1000名已遭受犯罪侵害儿童的匿名信息。最终评分受到诸如需要帮助的儿童身份、长期逃学和心理障碍等因素的影响。
早在2016年,警方伦理委员会就曾警告所选变量可能导致算法偏见。后来,咨询机构Social Finance进行的审计证实了最坏的担忧:模型准确率被认定为"最薄弱环节",其实际价值令人怀疑。到审计时,这两个模型已被停用。
数据问题与缺乏监管
Social Finance将模型质量下降归因于数据集的变化。在试图将系统推广到整个埃文郡和萨默塞特地区时,警方未能与所有地方议会就数据共享达成一致。结果,社会指标从模型中消失,算法开始主要基于"警方核心数据"运行,使其更加不可靠。
布里斯托尔市政服务部门员工抱怨称,弱势儿童未能出现在结果中。一份报告指出,近期遭受犯罪侵害的未成年人可能比盗窃案涉案人员获得更低的风险评分。其他员工坦言,由于方法完全不透明,他们不愿依赖这些评估结果。
Eticas公司基于13个模型的36000次性能评估进行的独立审计显示,大多数模型的正向预测准确率极低。例如,用于识别潜在入室盗窃者的模型在三年多时间里准确率低于10%——即系统错误地将超过90%的人标记为高风险。警方解释称,该模型并未实际部署,这些评估只是对"静态文件"进行自动检查的结果。
背景与我的专业见解
这一事件发生在耗资7500万英镑的国家警察人工智能中心(PoliceAI)启动之际,该中心旨在将人工智能工具推广到英格兰和威尔士的43个警察局。具有象征意义的是,该中心负责人正是埃文郡和萨默塞特郡的前警察局长——正是发生此次失败的地区。
我的专业意见:布里斯托尔的案例是一个典型例子,说明在儿童保护等关键领域仓促部署人工智能如何导致技术本身声誉受损。问题不在于"糟糕的"人工智能,而在于数据管理的系统性错误:使用非代表性样本、缺乏透明度以及对原始变量质量缺乏监管。如果PoliceAI不吸取这些教训,它面临的风险不是扩大效率,而是将系统性错误扩散到全国。