细节解析:大模型备案安全评估要求

news/2024/9/28 13:23:51

--- 专业解答:wacyltd 唯安创远-----

1.语料来源安全
与《暂行办法》第七条,服务提供者应当依法开展预训练、优化训练等训练数据处理活动,使用具有合法来源的数据这一要求相对应,该《要求》在此基础上,从语料来源管理、语料搭配、可追溯性方面提出了细化要求:
(1)语料来源管理方面
要求使用合法来源的语料,并对语料内容质量提出了量化标准,如语料内容含违法不良信息超过5%的,不应采集或使用该来源语料。
(2)不同来源语料搭配方面
要求提高语料来源的多样性。具体来说,对于不同语言和不同类型的语料,应当结合使用多个不同的语料来源。例如,在使用境外语料时,应合理地结合境内外的不同来源的语料,以保持语料的全面性。这样做有助于提高生成内容的质量,确保内容的客观性和多样性。
(3)语料来源可追溯方面
要求服务提供者具备合法的处理依据,例如开源许可协议、相关的授权文件、交易合同或合作协议等。若涉及自采语料的使用,无论是自行生产的还是从互联网采集的,提供者都需保留详尽的采集记录。对于他人已明确表示不可采集的语料,如通过robots协议或其他限制采集技术手段明确表明不可采集的网络数据,以及个人明确表示拒绝授权采集的个人信息等,都应坚决避免采集。同时,按照我国网络安全相关法律法规及政策文件要求阻断的信息,不应作为语料。
2.语料内容安全要求
《暂行办法》第四条和第七条都对训练数据提出了“合法”的要求。为此,《要求》提出服务提供者可采取多种手段,包括但不限于关键词过滤、分类模型以及人工抽检等,识别并过滤含有违法不良信息的语料。同时,《要求》还从知识产权和个人信息两方面提出了进一步的细化要求。
(1)知识产权合规方面
《要求》围绕着建立知识产权管理策略、识别知识产权侵权风险、完善投诉举报渠道、公开摘要信息等方面提出了多项措施以避免侵权风险。对此问题,在(2024)粤0192民初113号案中,当用户输入“奥特曼”或“迪迦”等关键词时,被告经营的Tab网站中AI绘画模块产生的图像特征与原告持有的合法授权IP形象高度相似,这表明该模块的底层训练语料中包含了属于他人版权的作品。在生成图像内容的过程中,该模块利用了这些版权作品,导致产出的内容带有原版权作品中的特定元素或特征,从而侵犯了权利人的知识产权。因此,服务提供者在管理语料内容时必须严格审慎,防范潜在的知识产权风险。
(2)个人信息保护方面
要求服务提供者应确保其个人信息处理行为具有合法性基础,即取得对应个人信息主体的同意或符合法律、行政法规规定的其他情形。当涉及敏感个人信息的使用时,还必须获得个人的单独同意。
3.语料标注安全要求
《暂行办法》第八条规定,在生成式人工智能技术研发过程中进行数据标注的,提供者应当制定符合本办法要求的清晰、具体、可操作的标注规则;开展数据标注质量评估,抽样核验标注内容的准确性;对标注人员进行必要培训,提升尊法守法意识,监督指导标注人员规范开展标注工作。该《要求》在此基础上,对标注人员、标注规则、标注内容等方面提出了更为具体的规定。
(1)标注人员
首先,在安全培训方面。要求定期对标注人员进行培训,培训内容包括标注任务规则、标注工具使用方法、标注内容质量核验方法、标注数据安全管理要求等。
其次,在考核方面。要求考核合格者具备上岗资格,考核内容包括标注规则理解能力、标注工具使用能力、安全风险判定能力、数据安全管理能力等,建立定期重新培训考核以及必要时暂停或取消标注上岗资格的机制。
最后,在职能划分方面。至少划分为数据标注和数据审核两类,同一标注任务下同一人员不得担任多项职能。
(2)标注规则
要求标注规则包括标注目标、数据格式、标注方法、质量指标等内容,覆盖数据标注以及数据审核等环节。
在功能性标注规则方面。要求应能指导标注人员按照特定领域特点生产具备真实性、准确性、客观性、多样性的标注语料。
在安全性标注规则放面,要求应能指导标注人员围绕语料及生成内容的主要安全风险进行标注。
(3)标注内容准确性
对于功能性标注,对每一批标注语料采取人工抽检,内容不准确的,应重新标注;内容中包含违法不良信息的,该批次标注语料应作废。其次,对于安全性标注,每一条标注语料至少经由一名审核人员审核通过。

(二)模型安全要求
1.模型生成内容安全性
要求服务提供者应对每次使用者输入的信息进行安全性监测,引导模型生成积极正向内容,并建立常态化检测测评手段,对测评过程中发现的安全问题及时处置,通过指令微调、强化学习等方式优化模型。

2.模型生成内容准确性
要求服务提供者采用技术手段提高生成内容的实时性与精准度。例如,在用户提出法律咨询问题时,人工智能生成的回答应当引用现行有效的法律法规,而非过时失效的规定。另外,服务提供方应当通过不断优化和校正模型,以减少人工智能生成内容中出现的不准确或虚构情况。

3.模型生成内容可靠性
要求服务提供者采取技术措施提高生成内容格式框架的合理性以及有效内容的含量,提高生成内容对使用者的帮助作用。

(三)安全措施要求

1.模型适用性
服务提供者在服务范围内应用生成式人工智能服务时应充分论证模型的必要性、适用性和安全性。如生成式人工智能服务应用于关键信息基础设施领域,或者医疗信息服务、心理咨询、金融信息服务等重要场合的,应当配备与风险程度相适应的保护措施。面向未成年群体的生成式人工智能服务服务提供者,还应设立未成年人保护措施,同时需遵守《未成年人保护法》《个人信息保护法》《未成年人网络保护条例》等规定,保障未成年人身心健康安全。

2.服务透明度
服务提供者以交互界面提供生成式人工智能服务的,应在网站首页等显著位置向社会公开服务适用的人群、 场合、用途等信息,并公开基础模型使用情况。以可编程接口形式提供服务的,应在说明文档中公开上述信息。

3.用户数据处理
服务提供者应当为用户提供一种便捷的途径,用以关闭其输入信息用于模型训练的功能。这可以通过多种方式实现,比如设置直观易懂的选项,或者提供简洁的语音控制指令。为了确保这种便捷性得到落实,《要求》进一步通过具体示例加以明确:当用户选择通过选项来关闭该功能时,从服务主界面开始,到达关闭选项的操作过程应控制在四次点击以内。

同时,为符合《办法》中对于“透明度”的要求,服务提供者应确保在界面设计或用户交互过程中,以显著方式向使用者告知其输入信息的收集状态,并清晰地展示关闭信息用于训练的选项或指令。

4.用户管理

根据《办法》第十条和第十四条,生成式人工智能服务提供者有义务指导使用者科学理性认识和依法使用生成式人工智能技术,并对使用者的行为进行监督。为了有效执行这些监督职责,《要求》提出了以下三项具体措施:
(1)实施监测机制
通过关键词筛查或分类模型等方式,对用户输入的信息进行实时监测,以便及时发现并处置不当行为;
(2)拒绝回答机制
对于检测到的含有明显偏激或诱导生成违法不良信息的问题,服务提供者的系统应自动拒绝回答,防止传播潜在有害内容。
(3)人工监看机制
配备专门的监看人员,及时根据监看情况提升生成内容的质量与安全性,并对第三方投诉进行收集和响应。

5.服务稳定性

为维护服务的稳定性,《要求》建议服务提供者采取多项安全措施,例如将训练环境与推理环境隔离以防止数据泄露和不当访问、持续监测模型输入内容以预防诸如DDoS、XSS和注入攻击等恶意攻击、定期进行安全审计以识别和修复潜在安全漏洞,以及建立数据、模型等备份机制和恢复策略等。

(四)安全评估要求

为促进生成式人工智能服务提供者有效履行安全评估的职责,《要求》细化了《暂行办法》中的要求,即提供具有舆论属性或者社会动员能力的生成式人工智能服务的,应当按照国家有关规定开展安全评估,并按照规定履行算法备案和变更、注销备案手续。根据《要求》服务提供者需对第5章至第8章的规定进行逐条审查,针对每一条款给出“符合”、“不符合”或“不适用”的评价,并据此形成最终的评估报告。此外,为确保评估工作的可操作性,《要求》特别针对语料安全、生成内容安全、问题拒答等方面提出了量化的评估标准。

七、大模型备案流程和时长

大模型备案目前处于一个井喷期间,陆续有许多符合申请条件的企业都在申请中,预计总耗时在4-7个月(唯安创远ai合规专家经验最快压缩至3-4个月)。个别中介型的服务商由于缺乏对大模型备案的了解,误以为与算法备案同时下备案号,这其实是错误的。在挑选服务商时,建议寻找技术服务为核心的服务商。

--- wacyltd 唯安创远-----

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/65755.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

垃圾回收算法

垃圾回收算法分为跟踪式垃圾回收(Tracing garbage collection)和引用计数(Reference counting)两大类。 跟踪式垃圾回收 跟踪式垃圾回收的基本原理是先认定一些对象为root,比如全局变量和栈变量。然后跟踪(trace)哪些对象是从这些root可达的,而剩下的从这些root不可达的对象就…

sha256sum文件哈希值和直接哈希字符串的哈希值不一样

例如在文件test.txt里写入 test没有换行。 然后 sha256sum test.txt出来的结果是 f2ca1bb6c7e907d06dafe4687e579fce76b37e4e93b7605022da52e6ccc26fd2 test.txt但是在这个网站上 http://encode.chahuo.com/ 输入test,然后以sha256方式哈希得到的结果是 9f86d081884c7d659a2f…

F-Droid使用教程

F-Droid下载地址:https://f-droid.org/ 默认的官方源太慢了。建议更换清华源。官方教程:https://mirrors.tuna.tsinghua.edu.cn/help/fdroid/ 先打开F-Droid,进入设置->存储库点进F-Droid存储库,可能会看到一些官方镜像:如果啥也没有,可能等一段时间就会出现。 把这些…

WPF 的Image 控件 设置 Image.Source 的数据源,可能存在跨线程调用的问题。

相信很多WPF 的开发,应该都很多用到 Image 这个控件来显示图片。这个图片的来源可以来自各种各样的方式获取到。 我们的组内白板、批注的扫码的功能也用到这个去生成二维码,生成后,二维码显示不出来,由于触发到了全局捕获,界面又没有崩溃,遇到了好几个坑,记录一下。 开始…

TSCTF-J 2024 部分题目复现(未完结)

TSCTF-J 2024 部分题目复现(未完结) iPlayBingo: F12拿到answerCheck.wasm文件,同时观察js代码找到关键函数Check() 利用Wabt将answerCheck.wasm文件转为answerCheck.c和answerCheck.h文件,但此时可读性依然较差。用gcc链接成answerCheck.o文件,此时可以使用IDA反汇编。​…

7-访问控制技术原理与应用

7.1 访问控制概述 1)概念 访问控制是指对资源对象的访问者授权、控制的方法及运行机制。 访问者又称为主体,可以是用户、进程、应用程序等; 资源对象又称为客体,即被访问的对象,可以是文件、应用服务、数据等; 授权是访问者可以对资源对象进行访问的方式,如文件的读、写、…

【赵渝强老师】基于大数据组件的平台架构

在了解了大数据各个生态圈所包含的组件及其功能特性后,就可以利用这些组件来搭建一个大数据平台从而实现数据的存储和数据的计算。下图展示了大数据平台的整体架构。视频讲解如下:大数据平台的Lambda架构大数据平台的Kappa架构大数据平台的总体架构可以分为五层,分别是:数据…

ctfshow-web-信息搜集(11-17)

web11 题目提示:域名其实也可以隐藏信息,比如ctfshow.com就隐藏了一条信息。 原理:通过Dns检查查询Flag。这里可以用阿里云的网站: Dns查询网站:阿里云网站运维检测平台 (aliyun.com)web12 题目提示:有时候网站上的公开信息,就是管理员常用密码 原理:查看robots.txt文件…