使用知识图谱检测大模型产生的虚假信息,比如,虚假的药物名称「Lopressor」被替换为存在于真实数据中的通用版本如「metoprolol」专业领域LLM的「数据中毒」风险像诸如医疗,法律等与用户密切相关的领域,使用大模型时,尤其要避免模型出现幻觉。然而遗憾的是,这项研究指出,这类专业模型很容易被有害数据污染。例如该研究中,只需要一天的时间,就能产生1.5万篇虚假的医学文档,而要给模型「投毒」,甚至都不需要这么多数据。花费5美元产生的2000篇虚假论文,就足以让模型输出的虚假信息显著增多。想象一下,未来的专有大模型提供商之间商战,或许就是朴实无华的数据污染,让对手的下一版大模型「中毒」。该研究指出的数据中毒所需的虚假信息数据比例,尤其值得大模型从业者关注,因为即使在当前所谓的高水平数据集中,也包含过时的医学知识。例如,权威医学论文集PubMed仍然托管着超过3000篇如今看来相当有害的文章,它们的核心论点是宣扬前额叶切除术的好处,但这种方法早已被证明会导致患者智力严重受损。因此,任何当代模型都不太可能完全摆脱医疗误信息,即便是最先进的专业LLM也可能会延续历史偏见,引用不恰当的医学文章,因此对大模型在关键任务医疗保健环境中的可靠性,亟需额外研究。参考资料:https://www.nature.com/articles/s41591-024-03445-1摘要:使用知识图谱检测大模型产生的虚假信息,比如,虚假的药物名称「Lopressor」被替换为存在于真实数据中的通用版本如「metoprolol」专业领域LLM的「数据中毒」风险像诸如医疗,法律等与用户密切相关的领域,使用大模型时,尤其要避免模型出现幻觉。然而遗憾的
来源:安楠说科学
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!