破解大模型隐私防线,华科清华联手实现微调数据90%精准识别
微调大模型的破解数据隐私可能泄露 ?
最近华科和清华的研究团队联合提出了一种成员推理攻击方法 ,能够有效地利用大模型强大的大模调数生成能力 ,通过自校正机制来检测给定文本是型隐线华现微否属于大模型的微调数据集。
NeurIPS24论文 《Membership inference attacks against fine-tuned large language models via self-prompt calibration》 ,私防手实提出了一种基于自校正概率波动的科清成员推理攻击算法SPV-MIA,首次在微调大模型场景下将攻击准确度提高至90%以上。华联

成员推理攻击(Membership Inference Attack)是据精一种常见的针对机器学习模型的隐私攻击方法 。该攻击可以判断某个特定的源码库准识输入数据是否是模型训练数据集的一部分,从而导致训练数据集相关的破解隐私被泄露。例如 ,大模调数该攻击通过判断某个用户的型隐线华现微信息是否被用于模型训练来推断该用户是否使用了对应的服务 。此外 ,私防手实该攻击还可用于鉴别非授权训练数据 ,科清为机器学习模型训练集的华联版权鉴别提供了一个极具前景的免费模板解决方案。
尽管该攻击在传统机器学习领域,据精包括分类、分割 、推荐等模型上已经取得了大量的研究进展并且发展迅速。然而针对大模型(Large Language Model ,LLM)的成员推理攻击方法尚未取得令人满意的进展。由于大模型的大尺度数据集,高度泛化性等特征,限制了成员推理攻击的准确性。
得益于大模型自身的服务器租用强大的拟合和泛化能力 ,算法集成了一种自提示(Self-Prompt)方法 ,通过提示大模型自身生成在分布上近似训练集的校正数据集,从而获得更好的成员推理分数校正性能。此外,算法基于大模型的记忆性现象进一步设计了一种概率波动(Probabilistic Variation)成员推理攻击分数 ,以保证攻击算法在现实场景中稳定的鉴别性能。基于上述两种方法,该攻击算法实现了微调大模型场景下精确的成员推理攻击 ,促进了未来针对大模型数据隐私及版权鉴别的香港云服务器相关研究。
现实场景中成员推理接近于随机猜测
现有的针对语言模型的成员推理攻击方法可以分为基于校正(Reference-based)和无校正(Reference-free)的两种范式。其中无校正的成员推理攻击假设训练集中的文本数据具有更高的生成概率(即在目标语言模型上更低的Loss),因此无校正的攻击范式可简单地通过判断样本生成概率是否高于预设阈值来鉴别训练集文本 。

△Reference-free 无校正的成员推理攻击流程图
基于校正的成员推理攻击认为部分常用文本可能存在过度表征(Over-representative)的云计算特征,即天然倾向于具有更高的概率被生成 。因此该攻击范式使用了一种困难度校正(Difficulty Calibration)的方法 ,假设训练集文本会在目标模型上取得相较于校正模型更高的生成概率 ,通过比较目标大模型和校正大模型之间的生成概率差异来筛选出生成概率相对较高的文本。

△Reference-based 基于校正的成员推理攻击流程图
然而,现有的两种成员推理攻击范式依赖于两个在现实场景中无法成立的假设:1)可以获得与训练集具有相同数据分布的校正数据集,高防服务器2)目标大型语言模型存在过拟合现象 。 如下图 (a)所示 ,我们分别使用与目标模型训练集同分布、同领域 、不相关的三个不同的校正数据集用于微调校正模型。 无校正的攻击性能始终较低 ,并且与数据集来源无关 。对于基于校正的攻击,随着校正数据集与目标数据集之间相似性的下降 ,攻击性能呈现出灾难性地下降 。如下图(b)所示,现有的两种攻击范式都仅能在呈现出过拟合现象的大模型中取得良好的攻击性能。因此 ,现有的范式在现实场景中只能取得接近于随机猜测的鉴别性能 。

△现有攻击范式在现实场景中的鉴别性能接近于随机猜测
为了解决上述的两点挑战,我们提出了一种基于自校正概率波动的成员推断攻击(Self-calibrated Probabilistic Variation based Membership Inference Attack,SPV-MIA) ,由两个相应模块组成:1)大模型自校正机制:利用大模型本身生成高质量校正数据集 ,2)概率波动估计方法:提出概率波动指标刻画大模型记忆现象特征,避免对模型过拟合的假设。
大模型自校正机制
在现实场景中 ,用于微调大模型的数据集通常具有极高的隐私性,因此从相同分布中采样高质量的校正数据集成为了一个看似不可能的挑战。
我们注意到大模型具有革命性的拟合和泛化能力,使它们能够学习训练集的数据分布,并生成大量富含创造力的文本。因此,大模型自身有潜力刻画训练数据的分布。
因此,我们考虑一种自提示方法 ,通过用少量单词提示目标大模型自身 ,从目标大模型本身收集校正数据集。

△大模型自校正机制方法流程图
具体而言,我们首先从同一领域的公共数据集中收集一组长度为l的文本块 ,其中领域可从目标大模型的任务中轻松推断出来(例如,用于总结任务的大模型大概率在总结数据集上微调)。然后 ,我们将长度为l的每个文本块用作提示文本,并请求目标大模型生成文本。
所有生成的文本可以构成一个大小为N的数据集 ,用于微调自提示校正模型