摘要:苹果近期推出的人工智能项目“苹果智能”遭遇广泛批评,尤其是在新闻摘要的准确性方面,误解标题和传播虚假信息的问题引发了关注。为了解决这些问题,苹果决定暂停该项目。与此同时,一项2024年10月发布的研究测试了几种领先的语言模型(LLMs)在数学推理方面的能力,结
苹果近期推出的人工智能项目“苹果智能”遭遇广泛批评,尤其是在新闻摘要的准确性方面,误解标题和传播虚假信息的问题引发了关注。为了解决这些问题,苹果决定暂停该项目。与此同时,一项2024年10月发布的研究测试了几种领先的语言模型(LLMs)在数学推理方面的能力,结果显示这些模型并未真正进行推理,而是仅模仿训练数据中的推理步骤。研究人员通过改变问题中的数字,揭示了模型的缺陷,导致20个被测试的LLMs表现出显著的准确性下降,甚至高达65%。即便是OpenAI的最新模型也未能幸免,表现下降引发了对人工智能在生成准确和连贯信息方面的可靠性的严重担忧。
尽管人们对其发布充满期待,但苹果近期推出的人工智能项目——苹果智能,遭遇了显著的反对声音。该程序的新闻摘要尤其受到批评,因为其对标题的误解和虚假信息的传播。面对这一广泛的批评,苹果决定暂停该项目,直到能够解决这些问题。这一举措并不令人意外;人工智能“幻觉”现象是所有大型语言模型(LLMs)面临的已知挑战,而这一问题是否能够得到解决仍然是个悬而未决的疑问。考虑到苹果工程师曾对这一技术的重大缺陷提出担忧,推出自家人工智能模型的鲁莽性显得愈加明显。
2024年10月发布的一项研究,尚待同行评审,测试了几种领先的LLMs的数学推理能力。这项研究进一步增强了关于人工智能模型并不真正进行推理的共识。相反,研究人员得出的结论是,这些模型仅仅试图模仿它们在训练数据中遇到的推理步骤。为了评估人工智能模型的表现,研究人员使用了来自知名GSM8K数据集的数千个数学问题。这些问题通常在受过良好教育的中学生的能力范围之内,例如计算詹姆斯以每磅5.50美元的价格购买5包牛肉的总费用。
研究人员采用了一种出人意料的简单方法,揭示了人工智能模型的重大缺陷:他们改变了问题中的数字。这种方法有效地避免了数据污染,确保人工智能未曾在其训练中遇到这些特定问题。因此,20个被测试的LLMs每一个都表现出微小但显著的准确性下降。当研究人员进一步通过更改名称和引入无关细节——例如指出某些水果“比平常小”——来推进实验时,性能下降被形容为“灾难性”,下降幅度高达65%。即便是最先进的模型,OpenAI的o1-preview,也经历了17.5%的下降,而其前身GPT-4o则下降了32%。这引发了人们对人工智能模型在生成连贯和准确的信息方面可靠性的严重担忧。
来源:老孙科技前沿