摘要:由于AI时代的来临,所以除了最为知名的ChatGPT之外,许多人公司也都不断推出着自己的语言模型与AI,因此也会引起大家的好奇,到底哪个AI的逻辑性会更好?
由于AI时代的来临,所以除了最为知名的ChatGPT之外,许多人公司也都不断推出着自己的语言模型与AI,因此也会引起大家的好奇,到底哪个AI的逻辑性会更好?
于是B站的一位UP主林亦之前就进行了一场特别的AI交锋,让Deepseek、ChatGPT、Claude与Gemini四个AI坐到牌桌上,并且自己用代码复刻了近期红遍直播界的吹牛游戏《骗子酒馆》,还能让AI模拟各种人类棋手牌桌上的小动作,结果最后在50局交锋后,Deepseek的成绩最好,成为最后的赢家。
林亦一直以来都非常关注AI圈的发展,而最近他就拿了Deepseek的R1、ChatGPT的o3-mini、Google的Gemini-2-flash-thinking与Claude-3.7-Sonnet四个AI模型模拟人类牌手,用代码搭建了自己版本的《骗子酒馆》,并让4个AI牌手齐聚一堂,看谁是最大赢家,来验证谁的逻辑性可能会更好。
而同时,四个AI也会模拟各种人类牌手在牌桌上的小动作,例如在出牌时看着对手、状似云淡风轻的出牌、推出牌之后坐回椅子上,以此来迷惑其他三个AI,让自己能获得牌桌上的更大优势。
而在第一局游戏中,Claude展现出较为激进的风格影响到了Gemini,让Gemini质疑错误,成为第一个淘汰的AI。这时,Deepseek就与人类牌手一样,开始用自己的动作迷惑对手,这点也让ChatGPT成功踏入陷阱,让ChatGPT在一次质疑错误之后也被淘汰,最后一轮Deepseek在手牌优势的情况下轻松战胜了Claude,成为第一局的胜者。
随后,这场AI版《骗子酒馆》进行了50局,其中Claude与Gemini的交手有77%胜率,而Deepseek在游戏进行中似乎也发现了这场AI版《骗子酒馆》的本质,并对此作出回应。
最后,Deepseek在这场AI版死亡游戏中拿下了22次第一名成为最大赢家,Google的Gemini则敬陪末座,只赢了4场,排名二三名的则是Claude13场与ChatGPT的11场,并且Deepseek在胜率这么高的情况下,只决策失败132次,也是4个AI中表现最好的。
来源:BoomBoomLEI看影视