YouTube上一些有名的博主,比如h3h3、MrShortGame Golf和Golfholics,最近在YouTube上闹出了个大新闻,把AI训练数据合规的问题推到了风口浪尖。他们向美国法院告了Snapchat的母公司Snap Inc.,指控它用了不该用的视频训练AI。 这事儿的起因是Snapchat搞了个叫“Imagine Lens”的AI功能,结果被原告们告了。他们说Snapchat用了一个叫HD-VILA-100M的大视频数据集来训练模型。这个数据集是学术机构弄出来的,明确写着只能用于学术和非商业研究,绝对不许拿来做生意。可Snapchat偏偏把它用在了面向全球用户的商业产品里,这明显违反了协议。 原告们觉得这是对他们版权的侵犯,所以要求法院让Snapchat赔钱,还要发个永久禁令,让它别再用这些数据搞商业化。这案子不是个例。现在这种情况在美国多得很,光是告科技公司偷用受版权保护的内容去训练AI的案子,已经超过七十起了。原告涵盖了很多类型,有个人艺术家,也有大新闻机构。 这些案子都在讨论一个核心问题:科技公司在用大量数据喂AI的时候,数据来源到底合不合法。这个案子特别在于它触动了“研究”和“商业”的边界。很多有价值的数据集本来是高校为了研究弄的,免费开源给大家用,但通常都有限制。可现在科技公司为了赚钱,可能会把这些研究数据直接拿去用在产品里,导致法律纠纷。 这就暴露了个问题:现有法律对数据怎么用、怎么转、怎么监管,已经跟不上时代了。另一方面也说明了现在创作者和平台之间关系紧张。创作者觉得自己的心血被平台拿去当燃料用了,这是一种数字剥削。平台公司则说自己是合理使用。 这个案子对全球AI产业可能有深远影响。它可能会定下AI训练数据到底该怎么拿、版权怎么算、怎么平衡创新和保护原创这些根本规则。大家都说AI浪潮来了,但这浪花底下的“数据基石”得站得住脚才行。Snapchat跟这些博主的官司就是个缩影,提醒大家技术进步不能忘了保护别人的权利。 未来要建立一个公平的数据机制,得靠立法者、法官、技术公司、创作者还有学术界一起想办法才行。只有大家守规矩、讲契约精神了,AI才能走得更远。