数据集构建的伦理反思:从技术中立到社会责任的实践指南
1. 项目概述当数据集不再“中立”在计算机视觉和机器学习圈子里泡了十几年我参与过也评审过不少数据集构建项目。从早期的MNIST、CIFAR到后来的ImageNet、COCO再到如今各种针对细分任务的专用数据集我们似乎已经习惯了将数据集视为一种“客观”的、纯粹的技术基础设施。我们讨论它的规模、标注质量、基准性能却很少停下来问一句这个数据集本身代表了谁的观点它想解决谁的问题又在无意中强化了谁的偏见最近我花了不少时间研读了一篇对我触动很深的学术研究它系统性地分析了114个计算机视觉数据集的开发文档。这篇研究像一面镜子让我看到了自己过去工作中许多“习以为常”却值得深思的细节。我们总在追求“更大、更多样、更无偏”的数据但这些口号背后是一整套根植于学科内部的价值观和优先次序。数据集从来不是中立的它从诞生之初就嵌入了开发者的意图、社区的规范以及难以察觉的政治考量。这篇文章我想结合自己的实践经验和你深入聊聊数据集开发中那些被技术话语掩盖的“潜台词”以及我们作为从业者该如何更负责任地看待和构建手中的数据。2. 数据集开发的核心价值取向解析2.1 “客观性”与“标准化”的神话在几乎所有数据集论文的开篇你都能看到类似的表述“为促进领域发展我们提出了一个标准化的基准数据集……” 标准化听起来是那么的美好、客观、无可指摘。它意味着可比较、可复现是科学进步的基石。但在这项研究中我发现了一个有趣的现象超过一半的论文51.8%其主要贡献就是数据集本身而高达85.1%的论文会伴随一个新的算法。然而文档中对数据集的描述篇幅却呈现两极分化——要么几乎整篇论文都在描述数据接近100%要么就只给寥寥数段接近0%平均比例只有41%。这说明了什么“标准化”的诉求常常压倒了对数据集构建过程本身的透明化描述。我们急于提供一个可以打榜的数字比如mAP, Top-5 Accuracy却吝于详细说明数据是如何来的、谁标注的、在什么语境下收集的。例如研究提到像KAIST多光谱数据集这样的工作会花大量篇幅描述摄像头焦距、硬件配置“我们选择了长焦镜头以观察远处物体……”但对于数据采集地的社会文化背景、可能涉及的监控伦理却只字不提。这种技术细节的过度披露与人文社会细节的集体沉默本身就是一种价值选择它暗示只有可量化、可复现的技术参数才是重要的而数据的社会生命从产生到被使用的全过程则无关紧要。在我参与的一个街景识别项目初期我们也曾陷入这个陷阱。我们追求“标准化的评估协议”精心设计了光照、天气、角度的变化范围并认为这足以模拟“真实世界”。直到我们将模型部署到一个历史文化街区才发现模型无法识别某些具有地方特色的建筑装饰因为它们从未出现在我们的“标准”数据集中。我们追求的“客观多样性”实际上是被我们自己的技术视野所框定的。2.2 “高质量”与“大规模”的代价“高质量”和“大规模”是数据集文档中最常见的两个褒义词。高质量通常指向两方面高分辨率/清晰度的图像以及高准确度的标注。大规模则意味着海量的样本和丰富的类别。但这里存在一个内在的张力甚至是一个隐蔽的谎言。研究指出许多论文声称需要“大规模数据以推动深度学习发展”如NWPU-RESISC45数据集所述因为大数据能提升泛化能力、防止过拟合。然而获取高质量的人工标注其成本与数据规模是指数级增长的。例如SYNTHIA数据集的作者就坦言“获得足够多带类别标注的多样化图像是必需的。这些标注通过繁琐的人力劳动获得对于需要像素级标注的语义分割任务尤其具有挑战性。”于是一个普遍的实践出现了利用众包平台如亚马逊Mechanical Turk以极低的成本获取大量标注。研究统计在使用人工标注的数据集中有36.5%明确使用了第三方众包工人但仅有6.3%的论文报告了是否对标注者给予了报酬7.8%提供了标注者的人口统计学信息。我们一边赞美高质量人工标注的不可或缺一边系统性地掩盖和贬低其背后的劳动价值。在我早期的一个图像分类项目中我们通过众包平台以每张图片几分钱的价格获取了数十万张图片的标签并自豪地在论文中写道“以极低的成本构建了大规模数据集”。我们记录了标注的共识机制和质量控制流程却从未想过追问这些标注者是谁他们是否理解任务低廉的报酬是否影响了标注质量乃至他们的生活这种对“大规模”的崇拜还可能导致对“代表性”的错觉。就像SUN数据集作者声称的他们试图收集“所有在人类 discourse 中足够重要到拥有独特身份的场景”。但“重要性”由谁定义通常是论文作者和其所属的学术共同体。这可能导致数据集的“世界”只是特定文化、地域和学术群体眼中的世界。2.3 “多样性”与“无偏见”的技术化解读“多样性”和“无偏见”是数据集文档中的高频热词但它们的含义被高度技术化了。研究发现多样性最常指代的是场景和物体的多样性、拍摄条件光照、传感器、角度的多样性、物体姿态或背景杂波的多样性。对于包含人物的数据集多样性可能指年龄、姿态、表情的多样性。关键在于这种多样性几乎完全服务于模型的“鲁棒性”和“泛化能力”。例如300-W人脸数据集的创建是为了包含“自然、无约束的人脸图像”其多样性体现在“未见过的对象、姿态、表情、光照、背景、遮挡和图像质量”。这里的“无约束”等同于“真实”而“真实”的多样性带来了“挑战”。这种将社会复杂性如人的种族、性别、文化背景转化为可量化的技术变量如像素变化、姿态角度的过程本身就是一种去语境化的操作。“无偏见”的讨论则更加微妙。除了PPBPilot Parliaments Benchmark等极少数数据集绝大多数论文将“偏见”理解为影响模型泛化性能的“技术噪声”如选择偏差、摄影师偏差、近期偏差等。PASCAL VOC数据集的作者甚至认为使用“非由视觉/机器学习研究人员拍摄或挑选的个人照片”可以得到“非常‘无偏见’的数据集”因为照片“并非为特定目的即物体识别研究而拍摄”。这是一种危险的逻辑。它假设“无目的”就等于“无偏见”却忽略了任何数据都是特定社会和技术条件下的产物。网络爬取的“自然”图片同样充斥着社会现有的不平等和刻板印象。将偏见窄化为一个影响模型跨数据集性能的技术问题实际上回避了算法偏见可能对社会不同群体造成的歧视性后果这一核心伦理关切。3. 数据生产链条中“人”的消失与物化3.1 作为“噪声源”与“成本项”的标注者在数据集开发的叙事中人特别是标注者常常以两种矛盾的身份出现既是不可或缺的“金标准”提供者又是需要被最小化和控制的“误差来源”与“成本中心”。研究显示许多作者珍视手动标注的准确性认为其优于自动标注。但与此同时“降低人工标注劳动的时间和金钱成本”又是一个核心目标。这种张力在引文中体现得淋漓尽致“我们以低于250美元的总成本使用亚马逊Mechanical TurkAMT构建了斯坦福区域标注数据集”。人工劳动的贡献被压缩为一个极低的美元数字其背后的个体、工作条件、主观经验全部被隐去。在我的实践中我深刻体会到忽视标注者主体性带来的风险。曾有一个情感识别项目我们雇佣众包工人对面部表情进行“快乐、悲伤、愤怒、中性”的分类。初期准确率很高但模型在实际测试中表现怪异。后来我们发现部分标注者来自一个文化背景中“微笑”并不总代表“快乐”可能只是礼貌或尴尬。而我们简单的指令和统一的报酬无法捕捉这种文化差异反而将他们的文化特异性固化为“标注错误”。我们设计复杂的质量控制算法来剔除“不一致”的标注却没有去理解不一致背后的原因。人在这里被简化为一个需要与算法达成共识、否则就被淘汰的“生物传感器”。3.2 作为“数据点”与“技术障碍”的数据主体对于数据集中的人物数据主体文档中的态度同样工具化。人的多样性外貌、姿态、行为主要被描述为一种增加数据集“挑战性”和“真实性”的技术特性或是模型需要克服的“技术障碍”。例如Leeds Sports Pose数据集的作者写道“由于姿态、服装和成像条件导致自然图像中人类外观的巨大差异这项任务尤其具有挑战性。”更值得警惕的是对隐私和伦理的普遍沉默。研究分析了100个包含人类主体的数据集只有5个提到了机构审查委员会IRB或同等伦理审查5个以任何形式提到了隐私考虑。即使是在涉及极度敏感数据的数据集中例如从网络爬取的裸体检测数据集也完全没有讨论伦理、隐私或同意问题。当数据难以获取时如整形手术前后对比照常见的做法是转向网络爬取以此“绕过参与者的自主权”。这反映了一种将数据主体“物化”的倾向。人的身体、面孔、行为被剥离其社会、文化和伦理维度转化为纯粹的、可供模型消费的“特征”集合。他们的自主权是否同意被拍摄、如何使用其图像被视为获取“必要”数据的障碍而非必须尊重的基本权利。我曾见过一个为训练行人重识别模型而构建的监控视频数据集论文详细说明了摄像头的布设位置和分辨率却对视频中无数未经明确同意的个体权利只字不提。这种沉默本身就是一种政治立场它默认了在“技术进步”和“研究需要”的大旗下某些群体通常是公众场合下的普通人的隐私可以被搁置。3.3 有限的“多样性”表述及其工具性当数据集文档真正谈及人类的“多样性”时其范围也非常有限。在包含人物图像的数据集中只有41%提供了数据主体的社会人口统计学多样性信息。最常被提及的是年龄多样性其次是种族或民族性别多样性则很少被讨论且即便讨论也完全是二元对立的。这些多样性声明几乎总是服务于技术目标。例如CAFE数据集强调其包含多种族儿童Nis Web-Collected数据库声称其年龄估计器因数据的“多样性和丰富性”而具有“普适性”。多样性在这里的价值在于使数据用户相信该数据是“无偏的”从而对所有群体都“更准确”。这是一种工具性的多样性观引入多样性是为了让模型性能指标如整体准确率看起来更好而不是为了公平地代表不同群体或纠正历史上的不公。仅有极少数数据集如PPB向前迈进了一步指出如果某些人口群体在基准数据集中代表性不足那么即使他们不常被系统识别也可能频繁成为目标例如在监控场景下面临更高误报率从而遭受社会后果。但这种将技术性能与社会公正联系起来的讨论在目前的文献中仍是凤毛麟角。4. 构建更负责任的数据集从意识到实践4.1 重塑数据文档超越技术参数表当前的数据集文档Datasheets或模型卡片Model Cards倡议是一个好的开始但还远远不够。我们不能仅仅满足于记录类别数量、图像分辨率、训练/验证/测试集划分。基于上述分析我认为一份负责任的数据集文档至少应强制包含以下维度数据谱系与收集伦理明确收集语境数据是在什么场景实验室、公共空间、网络下收集的是否存在权力不对等如监控摄像头下的公众详述同意流程对于包含人物的数据是否获得了知情同意同意范围是什么仅限研究/允许商用对于网络爬取数据是否考虑了版权和合理使用是否提供了退出机制说明补偿机制标注者是否获得了报酬报酬标准是什么是否达到了当地的最低工资标准他们的劳动条件是否被考虑数据主体与标注者画像量化社会人口统计信息尽可能匿名化地提供数据主体和标注者在关键维度如感知的种族、性别、年龄、地域上的分布。这并非为了给个体贴标签而是为了评估数据集的代表性和潜在偏见。承认局限性明确说明数据在哪些群体或场景中代表性不足或缺失并解释这种缺失可能对模型性能和应用公平性产生的影响。价值声明与假设公开阐明设计选择公开说明为什么选择这些类别而非那些为什么这样的“多样性”定义被采纳“真实性”或“挑战性”是针对何种假设的“现实”和“挑战”揭示潜在危害基于数据的可能应用场景讨论模型误用或失败可能带来的社会伦理风险如对特定群体的歧视、隐私侵犯。4.2 在开发流程中嵌入反思性实践构建数据集不是一个纯技术的中立活动从立项开始我们就需要引入批判性的反思。在项目启动阶段进行“影响评估”组建一个多元化的团队尽可能包含领域专家、伦理学家、社会科学家以及来自潜在受影响社区的代表共同审视项目目标。问一些尖锐的问题这个数据集要解决谁的问题可能会加剧哪些现有的不平等有没有可能不通过收集新数据而是通过审计和修正现有数据偏见来达成目标将标注者视为合作者而非工具设计更尊重标注者的工作流程。提供清晰的、文化上敏感的任务说明和培训。建立反馈渠道让标注者可以报告任务中遇到的模糊、冒犯性或伦理上有问题的内容。支付合理的、符合生活工资标准的报酬。在论文中承认他们的贡献而不仅仅是将其列为“数据收集由AMT完成”。采用参与式设计方法对于涉及特定社区的数据集如医疗影像、土著文化物品识别尝试与社区合作进行数据收集和定义。让社区成员参与决定什么应该被表征、如何被表征确保数据集能反映他们的视角和利益而不是外部研究者的单方面定义。4.3 转向“足够好”而非“尽可能大”的数据哲学对“大规模”的盲目追求不仅带来了伦理和劳动问题在科学上也未必总是最优解。我们可能需要拥抱一种“足够好”的数据哲学针对性采样与其无差别地爬取海量网络图片不如针对模型需要泛化的具体场景和群体进行有目的、有代表性的采样。一个精心设计的、规模较小但覆盖关键边界案例和多样性的数据集可能比一个庞大但存在系统性偏见的数据集更有价值。合成数据与数据增强的伦理使用在尊重隐私和同意的前提下利用合成数据生成技术如GANs来平衡数据分布、创造稀有场景或保护个人身份信息。同时要警惕合成数据可能复制甚至放大训练数据中存在的偏见。重视数据管理与维护研究指出许多数据集85%有网址托管在个人或实验室网站上缺乏稳定的机构仓储支持。超过三分之一的论文中提供的链接已失效。构建数据集不是一锤子买卖。我们需要像对待代码和论文一样为数据集分配持久的标识符如DOI并将其托管在可靠的、承诺长期保存的仓储中确保其可及性和可复现性。5. 结语从技术制品到社会技术系统回顾我作为研究者和工程师的历程我曾不假思索地接受“数据驱动”的范式将构建更大、更“干净”、更“标准”的数据集视为不言而喻的善。但这项对114个数据集文档的深入分析像一记警钟让我意识到我们每天打交道的“数据”远非原始、中立的“燃料”。数据集是社会技术系统的产物。它凝结了设计者的价值判断什么重要、什么值得标注、学科社区的规范什么值得发表、什么被视作“好”科学、经济结构低廉的众包劳动、以及更广泛的社会权力关系谁有资格定义类别、谁的形象被大量呈现、谁的隐私被忽视。当我们高喊“无偏见”、“多样性”、“高质量”时我们实际上是在参与塑造一种关于世界应该如何被看见、被分类、被理解的特定叙事。因此构建一个负责任的数据集其挑战远不止于编写高效的爬虫、设计好用的标注工具或训练一个强大的基线模型。它要求我们具备一种数据素养——能够批判性地审视数据生命周期的每一个环节能够识别并质疑那些被技术语言包装起来的价值预设能够意识到我们的工作并非在真空中进行而是与社会现实持续地相互作用。这并非要我们放弃构建数据集而是呼吁一种更加谦逊、透明和负责任的建设方式。下一次当你开始一个新的数据项目时不妨在写下“我们提出了一个新颖的大规模数据集……”之前先停下来问问自己这个“我们”是谁我们想用这个数据集讲述一个关于世界的什么故事又有哪些故事可能因为我们的选择而被沉默或扭曲技术的进步最终应该服务于一个更加公正和包容的社会而这一切或许就从我们对待手中每一张图片、每一个标签的态度开始。