大语言模型让你在网上匿名冲浪的日子彻底到头了。别看隐私保护是个老话题,这次ai 技术一发达,搞

大语言模型让你在网上匿名冲浪的日子彻底到头了。别看隐私保护是个老话题,这次AI技术一发达,搞不好会把你的家底全翻出来。研究人员发现,这些模型在搜人的本事上,可比人类侦查员厉害多了,哪怕你顶着假名也逃不过。过去25年的大部分研究,其实都是建在Latanya Sweeney 2002年那篇k-匿名论文的地基上。她之前就证明过,只要有五位数的邮编、性别和生日这三个点,就能把87%的美国人给揪出来。这下好了,以前只是担心上网用的小饼干会泄露隐私,现在这种风险不仅没变小,反而更棘手了,因为大语言模型能自动把网上的帖子串起来,把幕后黑手给揪出来。MATS研究所的AI工程师Simon Lermen甚至说:“我们都把技术做出来了,AI智能体能从你发的匿名帖里把你是谁给找出来。”他也是那篇预印本论文的作者之一。Lermen在帖子里解释道:“不管是在Hacker News、Reddit还是LinkedIn,甚至是那种打了码的访谈记录,我们的方法都能高精度识别用户。”其实大家都知道只凭几个数据点就能找真人,就是以前太费劲。以前这些数据都是乱七八糟堆在那儿,全靠人肉查线索才行。现在Lermen他们用大语言模型把这个过程给自动化了,还便宜到离谱。他们在论文里放话:“大语言模型彻底改变了这一套计算玩法,直接把全自动去匿名的能力搞成了大规模处理非结构化文本的神器。以前那一套需要死板地定好特征模式、还要盯着数据对齐最后还得人工过一遍眼;现在的模型能直接从任何文字里抠出跟身份有关的信号。” 为了测试这玩意儿到底行不行,作者搞了个实验。他们先是从Hacker News上抓来了338个用户,把这些人的简历链接到了LinkedIn档案上。这么做是为了弄清楚这些人的真实身份(毕竟真正去匿名化人家会有伦理问题)。接着他们根据这些人在论坛上发的帖子和评论整理了一堆结构化数据档案。 他们还编了个搜索提示语给模型用。结果大语言模型智能体果然没让人失望,在338个目标里头,它一口气拿下了226个(也就是226个人被认出来了)。不过也不是100%全对——虽然精确度达到了90%,但成功率只有67%。更让人无奈的是有25个是错误识别(本来不该认的人也给认出来了),还有86个模型直接弃权没给预测结果。 你要是以为这招啥都能管那就错了——其实成功率也就那样——不过这事儿就是挺闹心。既然这么容易翻车那就应该引起重视了。 至于成本这块真不贵。研究人员报了个账:整个实验花了大概2000美元左右——换算下来每个档案成本也就1到4美元之间。 那谁会去用这种东西呢?作者推测政府可能拿来对付记者或者活动家;企业可能拿它去扒论坛的数据搞精准营销;在线骗子也能借此做出详细的用户画像去骗人钱。 Simon Lermen觉得以后大家上网都得留个心眼:“你发的那些帖子凑在一起通常就是个独一无二的指纹。”他建议你问问自己:“要是有一队聪明的人来找你这人渣到底是谁?”如果能找到那你就别指望AI智能体会不知道了——而且这事儿成本只会越来越低。 这篇论文的合著者还有Daniel Paleka、Joshua Swanson、Michael Aerni(都是苏黎世联邦理工学院的)、Nicholas Carlini(Anthropic的)和Florian Tramèr(苏黎世联邦理工学院的)。 AQ1:大语言模型怎么让人暴露身份? 答:它们会从你的匿名帖里挖出能定位你的信号点。 比方说你写过的经历、喜欢的东西这些乱七八糟的内容都能被当作线索。 它们能把这些零散的文字自动串联起来去搜索成百上千万个备选档案。 然后就能推断出两个账号是不是同一个人开的。 AQ2:这次的去匿名成功率有多高? 答:这次实验测试了338个人。 其中正确识别出来的有226个(占比67%)。 而且这都是在90%的精确度标准下达到的。 虽然不是次次都准但成功率已经很高了。 AQ3:搞这么大动静得花多少钱? 答:整个实验大概花了2000美元。 算下来平均每个用户的成本大概是1到4美元之间。 这么低的价格意味着大规模攻击变得特别划算。 不管是政府还是企业甚至是坏心眼的人都可能用得上这技术。