信息安全

大模型时代个人信息泄露风险

发布时间：2026-05-28

随着生成式人工智能的规模化部署，数据驱动范式正深刻重塑内容生产、知识服务与产业生态。大模型对海量训练数据的高度依赖，以及其参数黑盒化、能力涌现等特性，使得传统个人信息保护机制面临结构性挑战。大模型对训练数据的隐式编码与非透明处理机制，导致以网络边界防护和“告知一同意”为核心的传统隐私保护范式适用性受限。因此，亟须从治理理念、技术工具与法律法规等多个层面，系统性应对大模型时代的新型个人信息泄露风险。

一、风险识别与排比刘

近年来,以ChatGPT、深度求索(DeepSeek)及千问(Qwen)系列为代表的大模型，在自然语言处理与生成任务中取得显著进展,并加速向各垂直行业渗透。然而,实证研究表明，大模型在训练过程中容易形成对敏感数据的"非预期记忆",从而构成潜在的隐私泄露风险。例如，2024年,研究人员通过特定查询从ChatGPT中成功提取出数百条包含姓名、电话与邮箱的真实训练数据;2025年，Google Gemini被曝存在“零点击”数据泄露漏洞;2026年，安全研究人员在“龙虾”(OpenClaw)中识别出多处高危信息泄露漏洞。这些案例表明，大模型时代的个人信息保护正面临来自技术机理层面的新型泄露风险冲击。在传统信息安全框架下，个人信息泄露主要源于结构化数据库的批量数据窃取或应用层越权访问漏洞，攻击者所获取的通常是可直接读取的明文数据。然而，大模型将训练数据中的分布信息并编码至千亿级非透明权重的参数中，再通过概率性的上下文推理生成输出。这种“隐式编码—概率生成”机制，使得个人信息可能以模型的“非预期记忆”(即模型对训练数据中罕见序列的过拟合复现)泄露，攻击路径也从而由传统的显式窃取转向更为隐蔽的隐式还原。

从技术手段审视，当前学术界已识别出针对大模型的两种典型隐私攻击方式:成员推理项击 (Membership Inference Attack, MIA) 与训数据提取攻击(Training Data Extraction Attack，TDEA)。前者试图推断特定数据是否被用于模型训练;后者则直接尝试重构模型所记忆的训练数据片段。这两种攻击分别从“是否属于训练集”和“具体内容是什么”两个维度，构成了当前最具现实威胁的技术性个人隐私泄露路径。

(一)成员推理攻击:身份归属的统计学暴露

成员推理攻击是指攻击者通过查询目标机器学习模型，利用模型输出的概率分布、置信度分数或损失值等信息的细微差异，推断某一特定数据样本是否被用于模型训练的一类隐私攻击方法。与传统数据泄露攻击直接窃取原始数据不同，成员推理攻击的目的并非还原训练样本内容而是推断特定样本是否参与过模型训练;其实现手段主要依赖于模型在成员与非成员数据之间表现出的统计差异。具体而言，对于诸如通过应用程序编程接口(API)对外提供服务的模型(如CharGPT)，攻击者通常能够获取模型返回的每个候选词的概率(如OpenAL API中的logprobs参数)，或通过多次查询统计输出结果的稳定性，以估计生成内容的损失值与置信度。鉴于模型对训练样本通常具有更高的拟合度(表现为损失更低、置信度更高)，攻击者可据此训练分类器，实现成员身份的统计推断

在医疗领域，若攻击者成功判定某病历样本属于训练成员，即可间接推断个体就诊记录与疾病特征，从而导致敏感健康信息的实质性泄露。例如，2025年一项针对临床问答模型Llemr的实证研究表明，攻击者能够以较高的准确率推断该模型中是否包含特定真实患者的病历信息

在金融风控场景中，成员推理攻击同样面临较高的滥用风险，攻击者可通过成员判定推断个体信贷记录或交易流水。例如，针对银行信用评分模型的研究显示，攻击者能够通过成员推理成功判断目标用户是否曾出现在训练数据中，进而获取其信用相关的敏感信息。

(二)训练数据提取攻击:原始信息的逐字还原

训练数据提取攻击的核心目标是从大模型中逆向重构预训练语料中的原始文本片段。该攻击的可行性根植于模型的记忆机理:在预训练阶段，模型吸纳的海量互联网数据、社交媒体内容及未充分脱敏的私有文档，会以非预期记忆的形式隐式编码至千亿级参数空间中。基于攻击者权限差异，训练数据提取攻击主要演进为两条技术路径:其一为黑盒查询攻击，攻击者仅需API调用权限,通过提示词工程、上下文诱导与少样本示例拼接等手段迭代试探，逐步拼凑出身份证号、联系方式或私有通信记录等敏感信息;其二为白盒与灰盒攻击，攻击者依托梯度分析、参数微扰或激活值反演实现定向提取，此类方法通常需获取模型内部访问权限，但重构精度与成功率更高。已有研究表明，在特定条件下，攻击者可以从开源大模型中成功提取数百条以上的训练数据原文。例如,Google DeepMind团队(2025)对LLaMA等模型展开的研究中，成功提取出涵盖个人身份信息、代码及通用唯一识别码(UUID)等敏感内容的数百条逐字文本序列。

此外，上述攻击具有无感化与可复制化特征。模型公开部署后，低权限调用者即可实施试探性查询。而一旦敏感数据发生泄露，便可被无限次重组与跨平台分发，导致溯源与阻断成本显著攀升。

【作者】中国科学技术大学网络空间安全学院俞能海童蒙陈可丽网络安全科技馆张丽

【来源】《中国信息安全》 2026 年第 4 期 p50-53