CMU 的研究人员开发了一种名为 Zeno 的框架,用于评估机器学习(ML)模型的行为。这种框架可以帮助研究人员和从业者发现和纠正模型的局限性和失败。
Zeno 包括 Python 的应用程序编程接口(API)和图形用户界面(GUI),可以进行数据发现、切片创建、测试创建和性能监控等操作。通过 Zeno,用户可以更简单、更快速、更准确地进行行为评估。
机器学习系统可能存在社会偏见和安全问题,如人行道检测模型中的种族偏见或特定医学图像的错误分类。传统的评估方法通常只关注整体指标,而忽视了对子群体或输入数据切片的模型输出模式的理解。因此,研究人员强调了进行行为评估的重要性。然而,目前市面上的行为评估工具往往无法支持实际应用中的模型、数据和行为。
Zeno 与其他系统合作,结合了其他方法的优点。它可以进行滑动测试和变形测试,适用于任何领域或任务。通过 Zeno 的 API,用户可以构建主要的行为评估和测试界面,实现模型输出、度量指标、元数据和修改实例等功能。Zeno 的前端界面包括数据发现和切片创建的 “Exploration UI” 以及测试创建、报告创建和性能监控的 “Analysis UI”。
Zeno 可以通过一个 Python 脚本向公众开放。用户可以在命令行中指定必要的设置,然后从命令行启动 Zeno 的处理和界面。Zeno 的前端界面采用 Svelte 编写,使用 Vega-Lite 进行可视化和 Arquero 进行数据处理。Zeno 可以作为 URL 端点部署在本地或服务器上,用户可以从自己的设备上访问。此外,Zeno 已经在包含数百万实例的数据集上进行了测试,并且在大规模部署场景中应该能够良好地扩展。
研究团队进行了几个案例研究,展示了 Zeno 的 API 和 UI 如何帮助从业者发现数据集和任务中的主要模型缺陷。研究结果表明,行为评估框架可以在不同的数据和模型类型中发挥作用。
总的来说,Zeno 是一个灵活的平台,可以帮助用户在各种人工智能相关的任务中进行深入的评估。尽管人工智能的发展给我们带来了许多希望,但其复杂性与其能力的增长速度相当。因此,我们需要强大的工具来支持基于行为的开发,并确保构建符合人类价值观的智能系统。Zeno 为用户提供了进行这种深入研究的平台。
评论列表 (条)