OpenAI 因涉嫌向 Meta 和 Google 传输数据面临法律诉讼

对话式人工智能的架构完整性正面临迄今为止最严峻的法律挑战。加利福尼亚州提起的一项集体诉讼指控 ChatGPT 的开发者 OpenAI 一直在将敏感的用户数据（包括私人聊天查询的内容）系统性地传输给 Meta 和 Google。该诉讼表明，私人人工智能交互与传统广告技术监控生态系统之间的界限已实际上被打破，且这并非通过安全漏洞，而是通过刻意的技术整合实现的。

争议的核心在于 ChatGPT 界面中追踪脚本（特别是 Meta Pixel 和 Google Analytics）的部署。虽然这些工具在现代网络中被广泛用于营销归因和用户行为分析，但它们出现在一个旨在进行私密、高风险通信的平台上，引发了关于技术透明度和提示词数据商品化的深层质疑。对于工业和企业用户而言，这一披露标志着在评估人工智能安全以及大语言模型（LLM）所应用的“监控资本主义”模式的经济现实时，出现了一个关键的转折点。

基于像素的数据泄露机制

要理解这些指控的严重性，必须了解追踪像素的机械功能。在标准网页开发中，像素是一段监控用户如何与网站交互的 JavaScript 代码片段。当用户执行操作（如点击按钮、输入文本或导航页面）时，像素会将数据包传输到提供商的服务器（在本例中为 Meta 或 Google）。这一过程被称为“事件追踪”，是全球数字广告行业的基石，它允许平台跨不同网站关联用户行为，从而构建用于精准投放广告的全面画像。

诉讼指控 OpenAI 的整合不仅限于流量统计。它指出，传输给 Meta 和 Google 的特定“事件”数据包括用户 ID、电子邮件地址，最关键的是，还包括聊天查询本身的主题。在技术背景下，如果聊天界面上的“发送”按钮被标记为追踪事件，那么与该事件关联的元数据可能会捕获消息的有效载荷。如果这些指控属实，这意味着那些正在与 OpenAI 竞争以主导人工智能领域的公司——拥有 Gemini 模型的 Google 和拥有 Llama 的 Meta——可能一直在接收关于 OpenAI 用户提问内容及行为的持续遥测数据。

法律基础：CIPA 与《电子通信隐私法》

特别是《加州非法入侵法》（CIPA），已成为加州隐私倡导者的有力武器。它禁止公司在没有法院命令或用户同意的情况下使用“监视记录器”或“陷阱与追踪”设备（即记录传出和传入信令信息的工具）。在 OpenAI 的诉讼案中，这些追踪像素被定性为数字化的监视记录器，它们“捕捉”用户通信并将其“追踪”回第三方的广告服务器。其核心论点是，用户在使用人工智能治疗师或财务规划机器人时，理应拥有合理的隐私预期，而当这些通信被同时广播到广告网络时，这种隐私权就受到了侵犯。

OpenAI 的抗辩很可能会集中在其现有的隐私政策和服务条款上。大多数 SaaS（软件即服务）平台都包含广泛的条款，声明数据可能会为了“分析”和“优化”而与第三方服务提供商共享。然而，诉讼辩称，大语言模型交互的高度个人化性质使得这些通用披露显得不足。当某种技术被宣传为“个人助理”或“对话伙伴”时，其知情同意的标准理应比普通电子商务网站或新闻博客更高。

人工智能军备竞赛中的利益冲突

OpenAI 被指控向 Meta 和 Google 提供数据，这具有鲜明的讽刺意味。在过去的二十四个月里，科技行业一直深陷一场高风险的“人工智能军备竞赛”，数千亿美元的研发支出和股票市场估值皆悬于一线。Google 在被 ChatGPT 的首次发布打得措手不及后，正疯狂地将其 Gemini 模型集成到其核心搜索和办公产品中。Meta 则执行了企业战略的根本性转变，从一家“元宇宙优先”的公司转型为“人工智能优先”的公司，并向开源社区发布了 Llama 模型，以削弱 OpenAI 的专有垄断地位。

如果指控属实，OpenAI 一直在无意中（或者也许是出于务实考虑）为其竞争对手的情报收集提供补贴。在机器学习的世界里，数据是主要的资本。高质量、由人类生成的对话数据是训练出更具同理心和准确性模型的“黄金”。如果 Google 和 Meta 一直在接收来自 OpenAI 用户群的元数据或直接查询内容，那么他们就获得了窥探其主要竞争对手专有使用模式的窗口。这表明人工智能初创公司在利用传统网络基础设施扩展业务时存在系统性脆弱性。

隐私缓解措施与私密机器人的迷思

对于终端用户而言，聊天机器人可能通过前端追踪器“泄露”数据的披露，凸显了防御性数字卫生的必要性。虽然 OpenAI 提供了“临时聊天”模式和禁用聊天记录以供模型训练的设置，但这些功能通常不会影响第三方追踪脚本收集的遥测数据。这些脚本在页面加载时就会启动，往往在用户还没输入一个字符时就开始工作。为了真正“锁定”隐私，用户必须超越聊天机器人的内部设置，关注浏览器的生态系统。

诸如追踪器拦截器、隐私保护型浏览器以及禁用第三方 Cookie 等技术解决方案提供了一定的保护，但它们无法解决服务器端数据共享的根本问题。当一家公司将 API 与另一个平台集成时，数据传输发生在后端，对用户的浏览器来说是不可见的，且不受本地广告拦截器的影响。这创造了一个“黑箱”环境，用户永远无法完全确定数据在离开聊天输入框后最终去了哪里。

工业领域已经对这些风险做出了反应。包括三星和多家全球金融机构在内的许多大型企业，已经实施了严格的禁令或限制，禁止在内部工作中公开发布的大语言模型。其担忧在于，输入到提示词中的专有代码片段、敏感的法律策略或非公开的财务数据，可能会被纳入训练集，或者正如本诉讼所暗示的那样，被出售给广告技术提供商。“本地部署”或“私有化”大语言模型的兴起，正是对这种信任缺失的直接回应，因为企业寻求在自己的硬件上运行人工智能模型，以确保没有任何遥测数据离开防火墙。

经济可行性与用户信任

随着 OpenAI 从非营利根基向价值数十亿美元的营利性实体转型，它正面临着曾将社交媒体行业转变为监控工具的同样的经济压力。运行高推理能力人工智能模型的成本是天文数字，需要对 NVIDIA H100 GPU 和专业数据中心冷却系统进行大规模投资。为了实现投资者要求的增长，OpenAI 必须像其他硅谷巨头一样，使用同样激进的营销和追踪工具。

这造成了一种根本性的张力：人工智能变得越个性化、越有用，其产生的数据就越有价值。如果 OpenAI 要成为智能时代的“万能应用”，它将坐拥人类历史上最私密的数据集。将其数据货币化——或者至少利用其来优化广告支出——的诱惑几乎是无法抗拒的。然而，如果这种货币化的代价是用户信任的丧失和大量集体诉讼，那么该商业模式的长期生存能力可能会受到威胁。

加州诉讼的结果可能会为整个行业树立先例。如果法院认定在聊天界面中使用追踪像素构成非法拦截通信，那么世界上所有的 AI 公司都将被迫清理其前端的第三方追踪器。这将迫使人工智能开发与传统广告技术生态系统脱钩，或许会引领人工智能领域“隐私设计”的新时代。在此之前，用户和企业必须保持怀疑态度，将每一次提示词对话视为对外部利益相关方的广播，而非私密的交谈。

OpenAI 因涉嫌向 Meta 和 Google 传输数据而面临法律诉讼

基于像素的数据泄露机制

法律基础：CIPA 与《电子通信隐私法》

人工智能军备竞赛中的利益冲突

隐私缓解措施与私密机器人的迷思

经济可行性与用户信任

Noah Brooks

Readers Questions Answered

Have a question about this article?

Comments