LAION 发布全新 AI 数据集 Re-LAION-5B，彻底清除儿童性虐待内容链接

发布时间：2024-09-03 04:07:38 浏览量：139

最近，LAION 宣布推出经过安全审查的新版本 AI 训练数据集 ——Re-LAION-5B。这个新数据集在之前广受欢迎的 LAION-5B 基础上进行了重大改进，特别是在清理与儿童性虐待材料（CSAM）相关的链接方面。LAION 表示，Re-LAION-5B 是全球首个在文本 - 图像对数据集上全面清除已知 CSAM 链接的网页规模数据集。

LAION 的发言人提到，Re-LAION-5B 主要分为两个版本:Re-LAION-5B Research 和 Re-LAION-5B Research-Safe。在这个新数据集中，总共移除了2，236个链接，这些链接都是根据与儿童保护组织合作提供的名单进行检查的。其中，有1，008个链接是在斯坦福互联网观察所于2023年12月发布的报告中确认的。

值得一提的是，LAION 指出，很多已知的儿童性虐待材料链接可能已经不再活跃，因为相关机构一直在努力从公共互联网中删除这些内容。因此，这个数字代表了一个可能的上限，实际上能够指向的 CSAM 链接可能更少。Re-LAION-5B 目前包含了55亿对文本和图像，第三方可以利用这些元数据来清理现有的 LAION-5B 衍生作品，生成差异并移除所有匹配的内容。

LAION 希望，通过发布 Re-LAION-5B，能够为清理网页规模的数据集设定一个新的安全标准。这一更新是在原始 LAION-5B 数据集曾因包含患者图像而受到批评后进行的。与此同时，LAION 还提到，CSAM 在 AI 训练数据集中的存在问题十分严重，尤其是一些经过训练的系统甚至被用来生成 CSAM 内容。

据互联网观察基金会（IWF）报告，自2023年秋季以来，AI 生成的儿童性虐待材料出现了大幅增长。这种 AI 内容的增加不仅给真实的儿童虐待案件调查带来了困扰，也导致社交媒体平台自动生成的关于 CSAM 的报告数量激增，进一步加剧了问题的复杂性。

LAION 发布全新 AI 数据集 Re-LAION-5B，彻底清除儿童性虐待内容链接

相似文章