前言
了解大模型的多种优化方法后,你可能已经准备将其引入到业务中。但在正式应用和上线之前,你应该充分了解引入大模型后可能存在的风险以及应对策略。
课程目标
学习完本课程后,你将能够:
- 认识大模型的个人信息、内容安全、模型安全和知识产权风险
- 了解大模型的个人信息、内容安全、模型安全和知识产权风险的治理策略
- 了解大模型应用的备案要求和方法
1 大模型的风险
随着生成式人工智能技术的广泛应用,其在保护用户个人数据、生成内容的安全性及知识产权等方面面临诸多风险。接下来,我们将通过具体案例深入探讨这些风险及其来源。

1.1 个人信息风险
个人信息风险是指生成式人工智能在训练和使用过程中,未能充分保护用户的个人数据,从而导致个人信息的泄露或被滥用。
1.1.1 风险案例
-
OpenAI和Microsoft因涉嫌ChatGPT隐私违规被起诉
- 背景:2023年6月28日,美国加利福尼亚州旧金山联邦法院收到一起针对OpenAI和Microsoft的集体诉讼。诉讼指控这两家公司在未经用户同意的情况下,秘密收集数亿互联网用户的个人信息来训练他们的ChatGPT模型。这些数据包括姓名、地址、电话号码、电子邮件地址和金融信息。
- 情境:诉讼称,OpenAI和Microsoft从各大网站和社交媒体平台上秘密收集用户个人信息,但用户对此并不知情,也未给予同意。这些数据的使用违反了美国《电子通信隐私法》,该法案禁止在没有搜查令的情况下截取电子信息。
- 结果:该集体诉讼正在寻求30亿美元的赔偿。一旦成功,可能会对OpenAI和Microsoft造成严重的经济损失,并促使全球范围内的AI公司重新评估其数据收集政策。
-
谷歌因Bard相关数据抓取面临集体诉讼
- 背景:Google修改隐私政策,宣布使用公共数据训练其Bard AI聊天机器人,引发公众不满,指控其侵犯隐私权和版权。
- 情境:2023年7月12日,Clarkson律师事务所提起诉讼,声称Google在未获用户同意的情况下,通过数据抓取收集了用户的个人和职业信息、创作作品、照片及邮件等,用于训练其AI模型。
- 结果:诉讼要求Google赔偿损失、删除收集的数据,并暂停Bard的开发,直到建立独立监管机构和其他保障措施。
1.1.2 风险来源
-
模型训练阶段
- 数据来源和内容:生成式AI通常需要大量数据进行训练,这些数据往往包含用户的个人信息(如姓名、地址、联系方式等),以使生成式人工智能产品与服务更加个性化、定制化。
- 缺乏匿名化处理:如果训练数据未进行匿名化处理,个人信息可能直接被模型学习和存储。
-
模型推理阶段
- 实时交互:在与用户的实时交互过程中,用户可能输入个人信息,如医疗记录、联系方式等。
- 模型生成内容:模型在生成内容时,可能会无意中包含或重现这些个人信息,导致隐私泄露。
1.2 内容安全风险
内容安全风险是指生成式人工智能在生成文本、图片、音视频、代码等内容时,可能出现社会不安全、不合法、不合规或违反道德伦理的问题。这类风险包括但不限于违法或不良信息、虚假内容、偏见和歧视等。
1.2.1 风险案例
- BERT模型中的性别偏见
- 背景: BERT等上下文语言模型(CLMs)虽提升了NLP性能,但容易在训练数据中学习到性别偏见。
- 情境:2020年,Rishabh Bhardwaj等人研究了BERT在情感和情绪强度预测任务中的性别偏见。他们训练了基于BERT词嵌入的回归模型,并使用性别公平评估语料库评估偏见。结果显示,模型的预测对性别特定词汇有显著依赖。
- 结果: 研究建议删除词嵌入中的性别特征,通过识别BERT每层中的性别方向来减少偏见。实验表明,该方法在减少BERT引入的性别偏见方面非常有效。
-
律师使用ChatGPT生成虚假案例导致法律后果
- 背景:生成式AI(如ChatGPT)在法律研究和文书准备中的使用日益增多,但也带来了虚假信息的风险。
- 情境:2023年6月22日,曼哈顿地区法院对纽约律师Steven Schwartz和Peter LoDuca及其律所Levidow, Levidow & Oberman施加了5000美元的罚款,因为他们提交的法律简报中包含ChatGPT生成的六个虚假案例引用。Schwartz在为客户对哥伦比亚航空公司的个人伤害案准备简报时使用了ChatGPT,导致错误引用。
- 结果:法院发现这些律师行为不诚实,尽管律师事务所宣称这是对技术误信所致。案件被驳回,律师们被责令通知所有被假引用的法官。这一事件强调了严格验证AI生成内容的重要性,以避免类似法律后果。
1.2.2 风险来源
-
训练数据问题
- 偏见和不良信息:如果训练数据中存在偏见、错误信息和违法不良信息,模型很可能继承并再现这些问题。
- 数据质量和多样性:训练数据质量不高或数据源单一,容易导致生成内容的片面性和失实性。
-
模型缺陷
- 缺乏多样化的检测和修正机制:模型可能缺乏有效的机制来识别和修正偏见、错误和不良信息。
- 算法设计缺陷:算法设计上的缺陷可能导致模型在特定领域或特定情境下生成有害或误导的信息。
-
使用过程中的问题
- 用户输入:用户在使用过程中可能输入违法、偏见或不适当的内容,进而影响生成结果。
- 内容鉴别难度:生成内容越接近人类创作,用户越难以鉴别真伪,特别是在语言风格、音视频合成等方面。
- 社会环境和公众因素
- 知识储备和数字技能:公众对于生成内容的真实性和准确性难以察觉,特别是在专业性强和陌生领域。
- 依赖生成内容做决策:在高风险领域(如金融交易、投资规划、医疗诊断等),依赖生成内容做决策容易产生连锁安全事件。
1.3 模型安全风险
模型安全风险是指生成式模型在使用过程中面临的多种安全隐患,包括传统的软件和信息技术安全问题以及生成式模型特有的安全挑战。
1.3.1 风险案例
- GPT-2被攻击导致训练数据泄露
- 背景: 越来越多的大型语言模型(例GPT-2)被训练于私有数据集上,这些模型常常容易受到训练数据提取攻击。
- 情境: 2020年,Nicholas Carlini等人展示了通过对GPT-2模型进行攻击,成功提取出训练数据。这些数据包括公开的个人信息(如姓名、电话号码和电子邮件地址)、IRC对话、代码和128位UUID。
- 结果: 研究表明,较大的模型更容易受到这种攻击,暴露出训练数据中的敏感信息。研究人员建议在训练大模型时要采取更严格的防护措施,以减少数据泄露风险。
- ChatGPT故障导致依赖业务受到严重影响
- 背景: OpenAI的ChatGPT是一个广泛使用的聊天机器人,每周拥有超过1亿活跃用户,被全球92%的《财富》500强公司应用于金融、法律和教育等领域。
- 情境: 2023年11月9日,ChatGPT及其API服务因一次有针对性的DDoS攻击导致大规模故障。OpenAI在其状态页面上指出,从11月8日开始的异常流量模式对所有服务造成了周期性中断。
- 结果: 尽管OpenAI迅速实施修复,服务一度恢复正常,但问题仍未完全解决,用户次日继续报告错误信息。攻击期间,客户信息未被泄露,但对依赖ChatGPT的业务造成了严重影响。此次攻击发生在OpenAI首次面对面会议后不久,该会议宣布了GPT-4 Turbo和ChatGPT定制版本的推出。
1.3.2 风险来源
-
传统软件和信息技术安全问题
- 后门漏洞:攻击者可能在模型开发过程中插入后门,使其在特定条件下生成意外的或有害的输出。
- 数据窃取:敏感数据在训练、测试和使用过程中可能被盗取,导致隐私泄露和信息不安全。
- 逆向工程:攻击者通过逆向工程的方法,从模型中提取训练数据或其他敏感信息。
- 生成式模型特有的安全挑战
- 公平性问题:模型可能在训练数据中继承并放大原有的偏见,从而生成带有歧视性或不公平的内容。
- 鲁棒性问题:模型在面对不常见或对抗性样本时,可能生成错误或有害的内容。
- 可解释性问题:由于模型的“黑盒”性质,难以解释其生成内容的具体依据和过程,增加了安全风险和责任不明确的情况。
1.4 知识产权风险
知识产权风险是指生成式人工智能在研发、使用和推广过程中,可能涉及的著作权、商标权、专利权等侵权问题。
1.4.1 风险案例
-
Stability AI因训练阶段的版权侵权面临法律诉讼
- 背景:2023年,Stability AI在训练其AI绘画工具Stable Diffusion的过程中,使用了未经授权的数百万张图片,包括Getty Images的内容。
- 情境:这些图片是通过互联网爬虫程序获取的,未明确获取版权授权,导致训练数据侵犯了他人的知识产权。
- 结果:Getty Images起诉Stability AI,指控其侵犯了大量图片的版权,引发了业内的广泛关注和担忧。这一案件成为生成式人工智能领域版权纠纷的典型案例,凸显了训练数据合法性问题。
-
Stephen Thaler因AI生成内容的著作权归属问题遭遇版权申请拒绝
- 背景:2021年,美国版权局(U.S. Copyright Office)拒绝了Stephen Thaler为其AI创作的作品申请版权保护的请求。这一案例集中体现在Stephen Thaler的“Creativity Machine”生成的一些内容上,申请者质疑其是否能够对该作品享有著作权。
- 情境:AI生成的内容难以区分人类创作和AI创作的界限,同时人工智能自身尚不能独立产生意思表示和承担法律后果。然而,用户或开发者希望明确AI生成内容的知识产权归属,以便在法律和商业上进行保护和利用。
- 结果:引发了关于生成物知识产权归属的广泛争议。由于当前法律对人工智能产生的内容是否具备著作权保护尚无明确规定,这成为知识产权保护的难点之一。不同国家的法律体系对此问题的态度和处理方式也可能有所差异,进一步复杂化了这一领域的法律挑战。美国版权局的这一决定进一步强化了这一法律领域的模糊性和不确定性。
1.4.2 风险来源
-
训练阶段
- 数据集包含他人作品:训练数据可能包括他人的著作、商标、技术成果等。例如,Getty Images起诉Stability AI,指控其侵犯数百万张图片的版权,这就突显了在数据集获取和使用过程中,容易触及知识产权侵权问题。
- 数据来源复杂:训练数据很多是通过爬虫方式在互联网环境中获取,互联网信息来源丰富且原始权利人不明确,难以找到确定的权利人进行授权。相对地,训练数据中是否含有他人的知识产权成果以及是否侵权,往往需要在生成内容呈现后才能判断,导致溯源难、定责难的问题。
- 内容生成与传播阶段
- 生成物的权利保护:生成内容能否成为知识产权保护对象是核心关注点。生成物多以文学和艺术作品形态存在,知识产权保护争议多集中在著作权领域。
- 生成物权利归属:在用户提示语下,生成式AI生成的内容愈发难以区分,这引发了对人工智能自身是否应成为权利主体或侵权主体的讨论。由于人工智能尚不能独立承担法律行为后果,各国对赋予其法律主体资格保持慎重态度,生成物的知识产权权利归属问题仍存有争议。
2 大模型的风险治理
为了有效管理大模型应用中的各种风险,确保生成式人工智能的安全、合规和有效应用,需要采取一系列治理策略。下面我们将详细介绍大模型的风险治理措施。

2.1 个人信息合规
2.1.1 合规处理
- 告知与同意:按照《个人信息保护法》,在收集和处理用户个人信息时,确保用户知情并自愿同意收集和处理其个人信息。在个人信息处理者变更时,必须履行告知义务并重新取得用户同意。
- 确保数据真实性和多样性:按照《生成式人工智能服务管理暂行办法》,确保预训练(Pre-training)数据和优化训练数据的真实性、多样性。真实性是指数据的准确性和可靠性,通过数据来源验证、数据审查和清洗确保模型避免错误理解和预测;多样性则确保数据覆盖广泛的情况和背景,如不同人群、文化、语言和区域,以提升模型的普适性和鲁棒性。
- 杜绝非法披露:按照《生成式人工智能服务管理暂行办法》,不得非法披露用户输入的信息和使用记录,向第三方披露或合作时需严格遵循相关法律法规。
2.1.2 训练数据分类分级
-
分类分级:
- 按照《个人信息保护法》及GB/T 35273-2020《信息安全技术 个人信息安全规范》进行一般个人信息和敏感个人信息的分类管理。
- 解决方案:使用阿里云数据安全中心对数据进行分类分级。详情参见快速实现敏感数据分类分级。
2.1.3 隐私数据保护和处理
-
去标识化技术:
- 参考GB/T 37964-2019《信息安全技术 个人信息去标识化指南》和GB/T 42460-2023《信息安全技术 个人信息去标识化效果评估指南》,进行去标识化技术实施和效果评估。
- 解决方案:使用阿里云数据安全中心对数据进行脱敏。详情参见数据脱敏。
-
加密措施:
2.1.4 拒绝生成隐私信息
-
Query-Response构造:
- 监督微调(SFT,Supervised Fine Tuning)阶段,通过构造Query-Response对,让模型学会拒绝对个人信息的非法Query。
-
价值观对齐:
- 监督微调阶段,利用基于人类偏好的强化学习,确保模型与人类价值观对齐,并在安全评测中能够正确应对。
-
拒绝不当请求:
- 在算法提供在线服务时,对于涉及个人信息违法请求的Query(如生成特定个人身份信息、非法获取方法等)必须予以拒绝,确保不生成虚假或敏感信息。
2.2内容安全保障
2.2.1 应用层安全机制

-
标准回答:
- 对于必须正面回答的问题,预置标准答案,命中后系统直接返回,避免继续生成风险内容。
- 解决方案:在应用中先构建标准答案库,针对输入问题的关键词及语义进行匹配命中后返回标准答案或根据特定模式的问题规则(如隐私政策、退款流程等)直接返回标准答案。对于特别复杂或高风险的问题,必要时可触发人工客服介入,确保用户体验和安全性。
-
Query风险识别:
- 对用户Query进行风险识别,判断是否存在个人信息、内容安全或模型安全等风险,并提供安全的答复。
- 解决方案:使用阿里云内容安全的文本审核功能,识别Query的文本违规风险。详情参见使用文本审核增强版识别文本违规风险。
-
基于知识库的搜索增强:
- 针对用户Query,利用搜索引擎获取可信度高的结果输入模型,引导模型生成符合事实的内容。
- 解决方案:使用阿里云大模型服务平台百炼的知识检索增强功能,缓解“知识幻觉”问题。详情参见知识检索增强工具。
-
Response风险识别:
- 尽管采取了上述措施,Response中可能仍含有风险,需要在输出前执行一次安全过滤,识别风险内容并及时拦截。
- 解决方案:使用阿里云内容安全的文本审核功能,识别Response的文本违规风险。详情参见使用文本审核增强版识别文本违规风险。
2.2.2 生成信息信任机制
-
添加AIGC声明:
- 针对可能造成误解的场景,对AIGC进行明确说明。
- 解决方案:通过提示词工程添加AIGC声明。
-
提供依据链接:
- 有条件的情况下,提供生成内容的依据链接,确保内容可信。
- 解决方案:通过提示词工程添加生成内容的依据链接。
2.2.3 模型风险评测
- 定义风险:首先,识别和细分大模型可能面临的各种风险。风险类型包括内容安全风险、个人信息风险和模型安全风险等。每种风险都需要被明确定义,以便后续处理和管理。
- 构建Benchmark(评估基准):在明确了具体风险后,下一步是为这些风险构建Benchmark。Benchmark可以通过两种方式获得:基于风险知识库生成或人工撰写。然后,这些基准由专家审核改写,形成风险Query。
- 评测模型:最后,使用风险Query和Benchmark对模型进行评测。评测方式通常是机器和人工结合的方式,需要生成多个Response,并进行人工审核和排序。这些Response与标准答案进行排序对比,然后根据判别结果做出安全性决策。
- 解决方案:使用阿里云大模型服务平台百炼的的模型评测功能,实现以上过程。详情参见模型评测。
2.2.4 模型层内生安全
- 预训练阶段:在这一阶段引入的风险主要来自训练语料,包括个人信息、违法信息、错误价值观和歧视等。处理方式包括筛选具有良好资质和声誉的信息源,对个人信息进行模糊化过滤和对数据进行清洗。
- 监督微调(SFT,Supervised Fine Tuning)阶段:对现有的监督语料进行安全过滤和人工审核,生成符合安全标准的训练数据,以指导模型正确应对风险Query。这一过程包括获取风险Query,生成并人工审核安全Response,以及生成多样化的安全Response,使模型稳定应对各种风险情境。
- 基于人类反馈的强化学习(RLHF,Reinforcement Learning from Human Feedback)阶段:强化学习的关键是评价模型的质量。标注人员进行培训并由不同背景的人员进行操作,以保证排序结果的公平性和降低偏见。
2.3 模型安全防控
2.3.1 鲁棒性
- 对抗性攻击测试:对模型进行对抗性攻击的测试,以发现并改进模型对抗攻击的弱点。通过不断的测试和改进,增强模型对各种扰动和恶意攻击的抵抗力。
2.3.2 公平性
- 训练数据集审查和筛选:对训练数据进行仔细审查和筛选,避免不公平内容进入模型的学习过程中。确保训练数据的公正性和多样性。
- 公平性约束:在训练过程中,加入公平性约束。通过调整损失函数或设计公平性指标,确保生成的内容无任何形式的歧视或偏见。
2.3.3 可解释性
- 特征可视化:通过可视化模型的内部结构、中间层表示和梯度等信息,来理解模型的工作原理。这将有助于揭示模型决策的背后机制,提升透明度。
- 规则化:引入约束和规则来指导模型的生成过程,以提高可解释性。制定明确的规则和准则,防止模型生成过程中的任意性。
2.4 知识产权保护
2.4.1 数据合法合规获取
- 从权利人处购买数据库:合法购买具有知识产权权利的数据库,以确保数据来源的合法性。
- 使用合法授权的开源数据集:使用具有合法授权的开源数据集,避免未经授权的使用。
- 避免跨越技术措施进行爬取:遵守网站或平台设置的防护机制,例如防火墙、验证码、访问权限控制和IP封禁等。通过技术手段绕过这些保护措施进行爬取,会违反相关法律法规。
2.4.2 溯源技术加持
-
权属清晰与溯源技术:
- 虽然人工智能生成物独创性逐渐被认可,但它们是否能成为知识产权权利主体仍是一个开放问题。生成物的合法合规使用依赖于权属的清晰程度。溯源技术的发展对相关治理具有重要作用。例如,为生成物添加明暗水印、进行版权电子登记和可信时间戳以及使用区块链技术等,都可以有效促进权属清晰。
- 解决方案:使用阿里云媒体处理的数字水印功能,为图像、视频添加数字水印,保障版权安全。详情参见数字水印(暗水印)。
2.4.3 制度革新
- 传统著作权制度的挑战与革新:人工智能生成内容逐渐接近人类创造水平,导致生成式内容创作、传播和利用的模式发生变化。传统著作权制度需要与时俱进,适应生成式人工智能的发展,建立更加公平合理的权益保护和惠益分享体系。
3 大模型应用备案
自2023年8月15日起,《生成式人工智能服务管理暂行办法》正式生效,监管部门要求对AIGC(生成式人工智能)相关的APP和小程序进行整改和合规备案:
- 已上架但未完成合规手续的应用将被下架。
- 未上架的应用必须完成合规动作后方可上线。
解决方案:阿里云百炼大模型服务平台为云上企业提供技术支持,涉及合规要求的算法备案。详情参见通义大模型应用上架及合规备案。
本节小结
通过本课程,你了解了大模型在模型训练、服务上线、内容生成、内容发布与传播等阶段的主要风险及其治理策略,确保安全合规地将其应用到业务中。
发表评论 取消回复