小扎回应Llama4对比DeepSeek:榜单有缺陷,等推理模型出来再比
开源基准测试存在缺陷,常偏向特定不常见用例,与产品实际使用场景脱节,不能真实反映模型的优劣。试图为这类东西进行过多优化会误入歧途。对于我们团队来说,搞一个冲到榜单顶部的Llama 4 Maverick版本相对容易,但是我们发布的版本根本没有对此进行调优,排名靠
dee llama4 回应llama4 对比deepseek 2025-04-30 16:09 5
开源基准测试存在缺陷,常偏向特定不常见用例,与产品实际使用场景脱节,不能真实反映模型的优劣。试图为这类东西进行过多优化会误入歧途。对于我们团队来说,搞一个冲到榜单顶部的Llama 4 Maverick版本相对容易,但是我们发布的版本根本没有对此进行调优,排名靠
dee llama4 回应llama4 对比deepseek 2025-04-30 16:09 5