对比deepseek

小扎回应Llama4对比DeepSeek：榜单有缺陷，等推理模型出来再比

开源基准测试存在缺陷，常偏向特定不常见用例，与产品实际使用场景脱节，不能真实反映模型的优劣。试图为这类东西进行过多优化会误入歧途。对于我们团队来说，搞一个冲到榜单顶部的Llama 4 Maverick版本相对容易，但是我们发布的版本根本没有对此进行调优，排名靠