摘要:随着文生图、文生视频等多模态技术的快速发展,科技巨头与研究机构竞相涌入大模型研发的浪潮,各行业大模型如雨后春笋般接踵而至。然而,面对功能多样、特色鲜明的大模型,用户在遴选最适合自身应用场景的模型时常常陷入选择困境。因此,建立一套兼顾灵活性与可定制性的大模型评测
工业和信息化部电子第五研究所
人工智能团队负责人
文 | 何静怡 采编|张孟月
校对|吴政希
图|由受访者提供
随着文生图、文生视频等多模态技术的快速发展,科技巨头与研究机构竞相涌入大模型研发的浪潮,各行业大模型如雨后春笋般接踵而至。然而,面对功能多样、特色鲜明的大模型,用户在遴选最适合自身应用场景的模型时常常陷入选择困境。因此,建立一套兼顾灵活性与可定制性的大模型评测体系显得尤为迫切,旨在通过全面、客观的评估,以验证模型性能、提升模型质量、增强模型可信度,为用户提供可靠的选型参考依据。
工业和信息化部电子第五研究所(以下简称电子五所)作为中国最早从事可靠性研究的机构,提供从材料到整机设备,从硬件到软件直至复杂大系统的认证计量、检验检测、工程监理等技术服务。作为业界领航者,电子五所积极推动人工智能技术在企业中的应用,引领产业升级,加速新型工业化进程。
2024世界计算大会上,电子五所推出了“人工智能计算系统性能测试套件(GCBS-AI)”和“人工智能服务器性能排行榜”,此套件集成了基础算力性能基准、训练场景性能基准及推理场景性能基准等多个程序模块,能够全面且多维度地对AI芯片、AI服务器、AI集群进行性能评估,为用户提供精准的算力选型支持。此举旨在强化技术支撑,助力人工智能产业迈向高质量发展新阶段。
近日,电子五所人工智能团队负责人杨攀飞接受了《科技与金融》记者的专访,分享了对大模型评测公正性、客观性的思考与建议。
Q《科技与金融》记者
A杨攀飞
大模型评测
既要统一标准也要注重灵活性
Q:当前,我国大模型的发展有哪些新进展?与发达国家的大模型相比,存在哪些差距?
A:过去一年,我国大模型发展取得了显著成果,第一梯队的大模型产品在部分通用能力上已基本逼近GPT-4o,并在多个应用领域展现出强大的竞争力。开源阵营中,有Qwen、DeepSeek、ChatGLM、Baichuan等实力强劲的产品;闭源阵营中,从华为盘古到百度文心、阿里通义、腾讯混元、字节跳动豆包,再到讯飞星火等产品同样表现出色;多模态阵营中,国产文生视频大模型Vidu多项能力可对标美国OpenAI公司发布的Sora;天工Skymusic文生音乐大模型部分表现不输美国的音乐大模型Suno,阶跃星辰Step-1X图像生成大模型部分视觉认知能力接近GPT-4o。
与国际主流大模型相比,国内大模型产品具有更为丰富的应用场景及更快的产业化推进速度。然而,在大模型产品蓬勃发展的背后,市场同质化严重、质量参差不齐以及创新乏力等问题也日益凸显。
在算法与架构层面,美国占据技术领先地位,而我国在算法和理论研究方面缺乏原始性创新与深入探索,高度依赖国外深度学习框架,模型种类的多样性不足。在数据与算力方面,相较于英文数据集,中文数据集在多样性、完整性和质量上均面临天然挑战;加之高性能算力资源匮乏,进一步制约了国内大模型的发展。在开源与生态方面,国外大模型更加开放,广泛应用于开源项目,加速了技术创新与技术积累,形成了良性的生态循环。在性能与成熟度方面,国外大模型已经发展至千亿甚至万亿级的参数规模,训练数据量和模型能力均有显著提升;国内大模型主要集中在百亿、千亿级别,受技术成熟度与数据资源的限制,商业化应用相对较少。
综合来看,我国大模型与国际先进水平存在一定差距,这要求我们从政策支持、技术创新、应用实践和生态系统构建等多个维度进行深入分析和全面推进,以缩小差距,实现快速追赶。
Q:为什么AI大模型需要评测?
A:人工智能已成为发展新质生产力的重要引擎,而大模型技术更是以其强大的数据处理能力、智能化决策支持和广泛的应用前景,成为引领新一轮科技革命和产业变革的关键力量。然而,大模型的发展也伴随着诸多风险与挑战,如泄露隐私数据,生成带有偏见、暴力、歧视、违反道德和法律法规的内容,传播虚假信息等。不仅如此,随着大模型能力的飞速进步,其自我保持、自我复制、追求权力和资源、奴役其它机器和人类等与人类价值不符的“欲望”倾向也逐渐呈现。因此,在追逐大模型技术创新的同时,必须对其能力与局限性有更深刻的理解。
为了预防大模型可能带来的安全挑战与风险,我们应当构建完善的评测体系,确保其健康发展与安全应用。
评测体系建设的必要性主要体现在下述四个方面:
一是助力技术创新与加速产品迭代。通过测试与评估,识别技术短板、产品差距,为技术创新、产品优化、产业升级提供数据支撑。二是明确产品价值,推动应用落地。评测不仅是对大模型技术能力的检验,更是对其在不同行业场景中应用潜力和适用性的探索,旨在进一步拓展大模型的应用范围与深度。三是揭示局限性与潜在风险。挖掘大模型存在的安全风险、隐私泄露、产品质量、违反法规和伦理等问题,以便及时采取措施进行改进和防范。四是规范行业发展并提高市场竞争力。系统化的评测,有助于把握技术发展现状与趋势,为政策制定、顶层设计提供决策支撑,推动整个行业向着更加健康、有序的方向发展,提升市场竞争力。Q:在您看来,一个合格的大模型评测应该具备哪些要素,评测的标准是什么?如何能确保评测的准确性和公正性?
A:根据不同的应用范围,大模型可细分为通用大模型、行业大模型、垂类大模型及端侧大模型等。针对不同领域、不同应用场景,大模型的评测标准应量身定制。以通用大模型的评测为例,其核心要素包括明确的目标与范围、标准化的测试环境、科学的测试与评价体系、高质量测试数据集以及公正专业的测试团队。
其中,构建科学的评价体系与高质量的数据集尤为重要:
一是测试指标的设计需兼顾全面性、典型性、专业性、系统性、一致性,确保涵盖通用能力、专项能力、领域能力的全面测试。二是测试数据集应具备多样性、典型性、保密性,并需定期更新,以确保测试结果与用户体验目标高度一致。三是评价指标应构建为一个多层次、多维度的体系,涵盖模型性能、鲁棒性、安全性、可解释性、扩展性以及效率与资源能耗等方面。当前,大模型评测体系在评测维度、数据集、评测方法和量化打分等方面已取得显著进展,国际和国内的通用大模型评测基准多达240多款。但对于大模型的评测,尚且缺少像以往NLU(自然语言理解)领域被各大机构、学者广泛认可的GLUE数据集。因此,亟须具备相关资质的检测机构建立兼顾灵活性与可定制性的大模型评测体系,构建统一和标准化的数据集,实施动态评测方法,以适应模型的快速进步和保证评估结果的客观性和公正性,避免所谓的“模型题库友好性”问题出现。
Q:“模型题库友好性”是指什么?
A:举例来说,我们可以将大模型的评测比喻为一场考试。如果训练数据集中充斥着类似于标准题库的内容时,这无异于考试前的刷题准备。
当前,国内大模型企业侧重于在“有正确答案”的领域进行模型微调,特别是题库类数据集的建设,以期在各类大模型评测榜单中脱颖而出,斩获佳绩。然而,在“没有固定答案”或“开放性问题”的领域,这些大模型的整体表现却普遍不尽如人意。因此,评测手段和数据集若不能与时俱进地更新,以适应大模型技术的快速发展,那么“模型题库友好性”问题将会愈发凸显。
Q:针对具体应用领域和需求,不同机构和组织可能会提出不同的评估标准和方法,用户该如何选择适合自己的大模型?
A:大模型评测要有统一的标准依据,但这并不意味着所有细节都必须完全一致,而是要平衡统一性与灵活性。一方面,要制定一些基本的、普遍适用的标准来确保公正性和客观性;另一方面,需要考虑不同任务和应用场景的需求,在标准制定时应具备一定的灵活性和可定制性。
此外,随着大模型技术的不断发展和进步,评测标准也要不断更新和完善。大模型评测标准的统一是个持续的过程,既要保持全面性、先进性、典型性、灵活性,又要尽可能兼顾技术与行业应用的平衡,这就需要学术界、工业界和政策制定者等各方的共同努力和推动。
当前尽管还没有针对大模型评测的统一标准出台,但评测的意义在于提供了一种评估和比较不同大模型性能的方法,以帮助用户选择更符合自己需求的大模型。用户在选择适合自己的大模型时,应首先明确实际需求和应用场景,然后综合权衡模型的性能表现、成本效益比、信息安全保障以及技术支持和持续更新能力等诸多因素。此外,可参考权威机构的评估报告,以科学严谨的态度筛选出最符合自身需求的大模型。
理性看待大模型评测的
天然营销属性
Q:有专家认为,大模型评测的意义侧重于营销推广,因为评测本身就带有营销的天然属性,只要涉及榜单,榜首归谁很容易成为话题中心。您对此怎么看?
A:目前市面上的评测多为对比评测,即比较各模型的优劣。这种横向比较是一把双刃剑,一方面,通过比较可以发现彼此的差距与短板,找到需要改进技术的地方,从而推动技术进步、迭代和产品改良;另一方面,评测结果在某些情况下可能会成为公众关注焦点,榜单第一名或前几名的模型,容易被过度营销推广。
尽管如此,评测的主要目的并非为了制造话题或进行营销,其作为一个全面评估和分析模型性能的过程,核心目的是促进技术进步、指导应用实践和帮助用户做出明智选择。
我们应该理性看待大模型评测的意义和价值。所谓“以测促评,以评促治”,即通过评测促进技术创新迭代,进而提升大模型质量。此外,通过榜单和分级分类方式,可以助力国内大模型产品在激烈的国际竞争中崭露头角,帮助国内厂商加快本土品牌的构建与推广步伐,增强企业的品牌意识,从而提升产品的国际竞争力。
Q:目前,大模型评测面临着“开源”和“闭源”的矛盾,对此您怎么看?
A:构建大模型评测体系的过程中,我们面临着“开源”与“闭源”策略的两难抉择,这也是公平性和透明性之间复杂且多维度的权衡问题。若采用闭源路径,可有效规避因过度刷题带来的“模型题库友好性”问题,更精准地反映大模型的核心能力。而选择开源路线,则可能面临数据泄露的风险,使得受试大模型有机会提前训练以提高分数。
相较于传统的标准化测试,大模型评测体系更适宜采用“开源”与“闭源”相结合的混合模式。具体而言,对于已经用于评测的成熟方法及测试集,建议进行开源处理,以促进资源共享并加速评测技术的创新迭代。而对于具有创新性的测试集,则需实施严格的管控措施,通过构建完善的数据安全保障体系,确保评测数据集在存储和传输过程中的安全性,从而确保在每次评测前,厂商无法获取相关的测试题。针对“闭源”测试结果可能引发的质疑,可以允许外界在遵循一定规则的前提下,根据公开的题目进行复现和验证,以增强评测结果的公信力和说服力。
这种混合模式旨在实现开源透明度与闭源保密性之间的平衡,从而构建一个更加公正、高效且安全的评测环境,推动大模型技术的持续健康发展。
政府与监管机构
是保障大模型安全运行的重要力量
Q:大模型的训练需要大量数据,但因涉及安全隐私、行业机密等因素,数据共享难题一直未解决,您对此有何想法或建议?
A:数据作为新型生产要素,是数字化、网络化、智能化的基础,数据的高质量与多样性对于训练高效能的模型至关重要。然而,在数据资产化趋势日益显著、数据隐私安全问题频发以及行业壁垒日益增强的背景下,数据共享的难度正在逐渐增加。
在推动数据共享、流通方面,建议按照《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》发挥我国丰富应用场景和海量数据规模优势,激发数据要素共享动能。技术侧需进一步完善隐私保护、区块链、数据确权、数据流通等技术;监管侧需完善数据共享与流通相关法律法规,创新数据资产知识产权管理模式;生态侧需加速数据共享平台及社区的建设,推动数据技术产业联盟的建设。
Q:目前AI大模型技术应用会带来哪些安全问题?我们应如何保障大模型的安全运行?
A:大模型主要面临隐私保护和价值观对齐两大难题。具体而言,大模型包含数据、算法模型和应用层等多个关键要素。在数据层面,我们要关注数据投毒、数据泄露、用户隐私以及核心机密数据保护等安全问题。在算法模型层面,则要应对对抗算法等安全问题。例如,当使用人脸识别进行解锁时,攻击者可能会通过一副特制的对抗眼镜(即“对抗样本”)解开目标手机的验证系统,从而造成风险。此外,如果模型被恶意植入“后门”,模型的安全也会受到威胁。在应用层面,人工智能的安全问题也日益突出,例如深度合成、AIGC等工具被不法分子用于制作虚假内容,从事诈骗活动等。
目前,政府与各类监管机构是保障AI大模型安全运行的重要力量。他们通过制定和实施严格的数据隐私法规,为大模型的安全使用提供了法律保障。除监管外,对AI技术进行研发创新也有助于提升大模型的安全系数。例如,通过提升AI技术,以AI守护AI,以技术反哺的方式,监控其他AI系统的运行状态,及时发现潜在问题。
来源:科技与金融杂志