如果你不知道食物中有什么,你就很难合理饮食。同理,如果你不理解训练数据的原理,就不能训练出偏差更小的模型。
这就是为什么最近的论文“给数据集创建数据手册” https://arxiv.org/abs/1803.09010 如此有趣的原因。在这篇论文中,来自微软研究的Timnit Gebru及其同事与来自其他学术研究机构的合著者们为数据集提出了相当于食物营养标签的标准。
很多机器学习和深度学习模型,大多倾向于使用像ImageNet或COCO 这样的公共数据集,或是私人创造的数据集,这些数据集能够将训练数据集的内容、偏差和其他相关素材传输给有兴趣的用户是非常重要的。
“数据手册”这篇论文探讨了使用标准化数据手册,将这些信息传递给数据集、商业化API和预构建模型用户的方案。除了能协助用户交流数据偏差外,作者还指出这种数据手册能够提升信息的透明度,并为数据的可靠性背书。
除了潜在的伦理问题外,当使用第三方数据进行训练的模型不能充分归纳到不同语境时,隐藏的数据偏差会造成部署系统的不可预测性,甚至失败。当然,最好的选择是收集第一方数据,并使用由该领域里具有专业知识和深刻见解的专家们构建和训练的模型。
广泛可用的公共数据集、更易上手的机器学习工具,能便捷访问的人工智能API和预购建模型促进AI民主化,使得越来越多的开发人员将AI技术运用到他们的应用中。作者建议,为AI数据集和工具创建数据手册可以为那些没有专长领域的工程师提供基础的信息,有助于减少由数据集误用引发的问题。
信息安全公司Terbium实验室的CTO Clare Gollnick,在与我们讨论科学和人工智能中的再现性危机时,提出了类似观点。她担心开发人员往往把重心放在用更深层、更复杂的模型解决问题,而当这些模型被应用到生产中时,通常会遇到泛化的问题。相反地,她发现,当研究人员利用该领域里现有的专业知识和深刻见解去解决AI问题时,成果将更为稳健。
Gebru和合作者在论文中指出,AI尚未经受以往伴随着新兴行业(如汽车、医药和电气行业)发展而逐步完善的安全法规的检验。文中提到:
当汽车首次在美国出现时,没有车速限制、停车标志、交通信号灯、驾驶员教育,与安全带或醉酒驾驶有关的规定。因此,1900年代早期,碰撞、超速和鲁莽驾驶造成了许多人员伤亡。
几十年来,汽车及其它行业都在不断地修改完善旨在保护公共利益的法规,同时其自身的技术革新也没有停滞。论文认为,是时候开始考虑为AI制定相关的法律法规了,特别是当我们开始将其用于健康和公共部门等高风险实践中时。欧洲即将出台的通用数据保护条例(GDPR)就将处理这些问题。
论文提出的“数据手册”来源于电气组件相关的概念。每一个售出的电子组件都附带相应的“数据手册”,上面列出了组件的功能、特性、运行电压、物理细节等。当用户需要在购买前了解某个零件的性能,以及误操作情况下可能出现的反应时,这些数据手册就能提供用户所需的支持。
作者建议,数据集或API的提供方应该附带一份“数据手册”来解决一系列标准化问题,这份“数据手册”应该包含以下主题:
对于上面所列主题的具体详解,可以参照该论文;它还包含了一系列补充细节,并为Wild数据集中的UMAS Labeled Faces 提供示例“数据手册”。这是一个完整全面、易于使用,并将具有影响力的模型。
这样的“数据手册”允许用户了解他们使用的数据的优点和局限性,并防止出现诸如偏差和过度拟合之类的问题。同时,“数据手册”还能全方位的促使数据集的创作者和用户对数据源进行不同角度的思考,并理解数据其实并非‘事实上’的存在,而是需要谨慎对待和维护的具有生命力的资源。
虽然我不是个电气工程师,但是我非常欣赏这个有趣的想法。
来源:网络大数据,由 宋淑杰 整理编辑!