布里斯托尔儿童AI评分系统:算法失灵与偏见威胁

埃文郡和萨默塞特郡警方与布里斯托尔市议会联合叫停了两款用于评估儿童犯罪风险的人工智能模型,原因是其准确率极低且算法完全不透明。独立审计人员既找不到原始代码,也找不到所用变量列表,导致此类系统根本无法核查。
数据收集方式:信息"大杂烩"
该项目基于2016年启动的"Think Family数据库"。该数据库整合了警方和居民社会数据:住房状况、心理健康、青少年怀孕、逃学记录,甚至包括是否领取免费餐食。这些信息未经公民直接同意,依据政府机构间信息共享的法律规定收集。一名警方专家直言不讳地将这种做法描述为"把所有东西都倒进一个大桶里搅拌"。
基于该数据库构建的机器学习模型,为成人和儿童分配风险评分。据记者所知,至少有23个此类模型——从预测入室盗窃到评估成为家庭暴力受害者的可能性。同时运行的还有一款"罪犯管理应用",一名高级警官将其称为最危险罪犯的"排行榜"。
算法为何失败
儿童犯罪风险评估模型使用了警方、市议会和慈善机构Barnardo's的数据,包括1000名已受害儿童的匿名信息。评分受儿童受助状态、长期逃学和心理健康问题影响。另一模型则考虑了住房补贴、租金欠缴和免费校餐等因素。
早在2016年,警方伦理委员会就警告过算法偏见风险。后来咨询机构Social Finance将风险评分列为项目最薄弱环节。低准确率削弱了模型的实际价值。核查时,两个系统均已停用。
数据集变化导致模型质量下降。警方试图将方法推广至整个地区,但未能与所有地方议会达成数据共享协议。结果模型中主要保留了警方"核心"数据,缺少社会指标。城市服务部门员工抱怨,弱势儿童未被纳入结果,而未成年犯罪受害者得分反而低于盗窃案涉案人员。
审计:低准确率与文件丢失
审计公司Eticas分析了超过36000次性能评估后得出结论:多数模型的正向预测准确率很低。系统错误地将大量人群标记为高风险。例如,用于识别潜在入室盗窃者的模型,三年多来准确率始终低于10%:系统标记的每十人中,实际犯罪者不足一人。
截至2023年6月,布里斯托尔警方和市议会均未保留关于停用两款儿童犯罪风险评估模型的决定文件。原始代码和变量列表也无法找到。目前当局仅使用NEET风险模型——评估儿童毕业后既不学习、不工作也不接受培训的概率。
背景:PoliceAI与系统性风险
此事发生在英国国家人工智能测试中心PoliceAI启动之际,该中心为英格兰和威尔士43个警察局测试AI工具,预算达7500万英镑。布里斯托尔事件清楚表明,此类模型的风险不仅关乎算法准确率,更涉及数据质量、文件保存及独立核查的可能性。
专家观点。布里斯托尔案例是典型教训:在执法领域仓促部署AI而缺乏适当审计和透明度,会损害整个理念的公信力。当系统无法区分犯罪受害者和潜在罪犯时,这不仅是技术失误,更是对司法公正的直接威胁。在监管机构强制推行此类算法验证标准之前,类似的失败还将重演。