摘要:“主张闭源派”认为,开源大模型存在数据“原罪”,训练过程中的数据可能未经授权、涉及隐私或版权问题,容易引发法律和伦理问题,甚至还有数据泄露的风险,因为开源通常允许访问和修改代码,会存在恶意使用的问题。
企业选择开源或闭源是基于商业判断,开源并非绝对优于闭源,闭源也并非绝对劣于开源。
文|宋欣鸿 张谦 哀佳
在人工智能蓬勃发展的浪潮中,各类独具特色的大模型产品层出不穷,关于开源与闭源的话题成为行业焦点,其背后的数据安全问题开始被审慎重视。
“主张闭源派”认为,开源大模型存在数据“原罪”,训练过程中的数据可能未经授权、涉及隐私或版权问题,容易引发法律和伦理问题,甚至还有数据泄露的风险,因为开源通常允许访问和修改代码,会存在恶意使用的问题。
“主张开源派”则认为,虽然闭源在数据隐私保护上更好,但开源的透明度更高,社区可以参与审查。而且随着开源的声音越来越大,主流趋势背后的问题不容忽视。
面对数据安全这一全球性挑战,国家、企业和用户应如何各司其职、协同应对?在人工智能高速发展的进程中,我们又应以何种心态和眼光看待隐藏其背后的数据安全问题?
01
开源背后的数据安全问题
2025年初,DeepSeek遭遇了一场来自海外的大规模恶意攻击。在DDoS攻击后,DeepSeek又被曝出严重的跨站脚本(XSS)漏洞。这一漏洞源于对postMessage事件的不当处理,攻击者利用该漏洞,在未进行适当来源验证或输入清理的情况下,将恶意脚本注入文档上下文。这意味着,攻击者不仅可以劫持用户会话、窃取敏感信息,甚至还能发起网络钓鱼攻击。紧接着,Wiz Research发现DeepSeek的基础设施存在重大安全漏洞,其可公开访问的ClickHouse数据库暴露了大量敏感数据,这一事件再次敲响了数据安全的警钟。
通常情况下,模型的训练数据集一旦公开,未经适当匿名化或脱敏处理,容易导致隐私泄露,且其代码和数据的可获取性较高,可能面临被恶意利用的风险。此外,开源项目的安全维护责任分散在社区成员之间,可能导致修复速度和质量不一致,用户需要自行承担部分安全风险,例如代码漏洞或数据滥用。
2025年2月23日,清华大学与瑞莱智慧联合团队推出了一款创新的大语言模型——RealSafe-R1。该模型基于DeepSeek-R1进行了深度优化和后训练,在确保性能稳定的同时,实现了安全性的显著提升,甚至优于一些被认为表现卓越的闭源大模型,如Claude3.5和GPT-4o。
RealSafe-R1的问世,不仅为开源大模型的安全发展提供了创新性解决方案,也为整个行业在数据安全治理方面开辟了新的思路。
中国社会科学院法学研究所研究员姚佳认为:“开源与闭源是知识产权领域的重要问题,涉及知识共享与商业保护之间的平衡。开源实际上是一个反知识产权的制度,其虽有助于知识传播,但也面临开源许可证复杂、法律壁垒等问题,甚至存在‘许可证丛林’等现象。”
相比之下,闭源模型则受到严格控制与专业维护,数据使用和存储在企业内部受到严格管控,降低了泄露风险,并由专业团队集中管理,及时修复漏洞。
北京大学信息管理系教授周庆山认为:“我们形容闭源的人工智能是个黑箱,可以输出结果,但是不知道中间是怎么回事。人工智能的发展强调可解释性和透明性,开源能更好地让我们了解大模型运行上的一些参数、逻辑等等。所以,开源可能是未来的大趋势。如今的立法或者伦理标准都特别强调,数据治理过程中的每个环节都要越透明越好。立法上也应该尽可能地往这个方向引导。比如说现在AI生成的内容,会要求提示‘本内容是由AI生成’。深度合成的数据也要尽可能做标注和标识,数据来源要有一个必要的备案。”
姚佳进一步指出,在开源社区中,用户需警惕贡献者可能存在的侵权风险,因为使用侵权数据也可能导致自身存在侵权风险。开源涉及社区数据、技术、代码等的免费使用,在这个过程中要注意前序的、已有的作品所享有的权利保护,即注意潜在的侵权风险。开源社区往往都会对用户提供开源协议,用户需注意遵守相关许可或协议,比如,对一些不得用于商业用途的限制,应严格遵守。若国家有强制性规定,也必须严格遵守。
“企业选择开源或闭源主要是基于商业判断,开源并非绝对优于闭源,闭源也并非绝对劣于开源。”姚佳说。
02
用法律应对数据安全挑战
在人工智能的新场景下,法律似乎面临着诸多挑战。
2024年,全球AIGC平台侵权第一案中,被告方Tab网站(化名)通过AI生成与奥特曼形象实质性相似的图片,并通过会员充值和“算力”购买获利。该案件的争议焦点是该AI公司是否侵犯了原告的复制权、改编权和信息网络传播权。最终法院认定被告侵犯了原告的复制权和改编权,判决其停止侵权行为并赔偿原告经济损失10000元。
法院亦提出,生成式AI服务提供者应采取一定的技术性措施来避免生成与权利人作品实质性相似的图片。同时,AIGC平台应尽到合理的注意义务,包括建立投诉举报机制、提示潜在风险、进行显著标识等。
当新的应用场景不断涌现,如生成式AI、自动驾驶、医疗AI等,现有法律体系由于立法的滞后性难以及时覆盖和规范这些新兴领域。
姚佳指出,“欧盟的《人工智能法案》明确指出,对个人数据的保护仍然还要遵循GDPR(《通用数据保护条例》)的一系列相关规则。欧盟的《人工智能法案》当中没有创设任何新的关于个人数据保护的规则。”
人工智能的复杂技术特性(如算法黑箱、数据处理)使得执法部门难以有效监管和取证,尤其是涉及算法偏见、数据安全等问题时。人工智能技术的快速迭代要求执法部门具备动态监管能力,及时调整监管策略和手段,以应对新的风险和问题。
姚佳认为:“对于人工智能训练数据方面,从法律适用角度看,仍需依据著作权、商业秘密、个人信息保护等法律对数据进行保护。对于数据跨境流动,在遵守现有法律的基础上,我国通过网信办的《促进和规范数据跨境流动规定》等方案,推动数据流动规范化。此外,国家数据局还致力于建立数据基础制度,促进数据作为生产要素的高效利用,这在与欧美国家对比中显得尤为突出。”
周庆山进一步表示:“人工智能深度合成的情况是从无到有的,以前信息是静态的,现在是交互的或者说是人工智能合成的。从保护个人数据方面的法律来看人工智能合成的内容显然是不够的。未来需要在现有立法的基础上进行完善。”
从完善立法层面来看,周庆山提到了复合型人才和跨学科团队的重要性,“未来法律领域需要既掌握人工智能知识,又掌握法律知识的复合型人才,在执法、立法等方面,通过跨学科的团队相互配合来解决问题。”
姚佳提到,发展与监管始终是一个难以绝对同频的永恒问题。企业虽然在数据收集、利用方面有更多需求,但监管方面也不可能完全放开对作品、个人信息方面的收集、利用,因为也要考虑更多的利益平衡,同时也并非所有企业都能达到高标准。
“这个过程就像拉锁、齿轮一样,能不能对上,怎么对?需要在实践中不断磨合和发展。”姚佳说。
03
企业层面需对症下药
随着越来越多的大模型逐步落地到各垂直行业,对于数据安全的监管难度也越来越复杂。
周庆山认为,不同行业之间的数据安全监管难度存在差别,“一些以数据来驱动的企业,比如网约车行业、快递行业、医疗行业,对于数据安全监管会更加重视。面对诸多问题,除了政策上的管控,也可以通过技术手段来进行应用,用智能技术治理技术滥用,用人工智能对抗人工智能。”
“现在我们也特别强调数据技术治理,这些人工智能产品本身就能识别侵权、造假、虚假信息,可以起到安全防护作用,并从产业角度提供一个预判。如今的信息安全产业是个很大的产业,不光是技术产业,所有公司都得配备这些产品,从硬件到软件,再到开发各种应用等。通过人工智能去识别、研判、抓取、分析,把安全技术用在安全防护上。”周庆山指出。
除此之外,区块链的不可篡改和透明性可用于数据治理,确保数据的完整性和可信度,可以通过智能合约实现自动化的数据访问控制。
数据脱敏技术则可以隐藏敏感信息,确保数据共享和使用过程中的安全性。
通过计算机算法、模型或模拟技术合成的数据,并非直接来源于现实世界的实际观测或实验,但能够反映真实数据的统计特征、结构和分布。
而隐私计算技术(如多方安全计算、同态加密)可以在数据不离开本地的情况下进行模型训练和数据共享,从而减少数据泄露风险。
值得注意的是,安全飞地(如 Intel SGX 或 AMD SEV)可以为 AI 模型提供隔离的执行环境,防止数据和模型被篡改。现代 DLP 解决方案结合了人工智能和数据安全态势管理(DSPM),能够实时检测和阻止未经授权的数据传输,降低误报率,同时通过行为分析检测异常活动。
例如,Cyera 的 DLP 解决方案利用 AI 和 DSPM 的结合,支持实时数据分类和异常检测,有效保护数据安全。
此外,周庆山认为,提升数据质量与可用性,建设、完善数据源可以有效加强数据隐私与安全保障、推动数据标准化、激发数据创新与应用、降低数据交易成本。
数据源建设能够为数字经济、社会治理、公共服务等领域提供高质量的数据支持,从而充分释放数据作为新型生产要素的价值,改善当前公开数据存在的质量差、隐私保护不足、供需不匹配等问题。
以医学领域为例,国外已经有NITRC-IR(国家信息技术研究中心图像存储库)、HCP(Human Connectome Project,人脑连接组计划)、OpenNeuro等脑神经方面的数据平台。国内亦有国家人脑组织资源库数据平台、中国人脑功能图谱数据库、脑科学多模态数据库等医学数据库。
“平台可以规范数据安全保护的问题,哪些数据可以开放?开放的流程是什么样的?出现问题的时候如何追责?都有专门的规范。未来这类平台会越来越多,将涵盖交通、金融、文化、农业等各行各业。”周庆山如是说。
来源 | 2025年4月刊
来源:新浪财经