longppl

长文本有了专属困惑度！北大、MIT、阿里推出LongPPL新指标

随着大模型在长文本处理任务中的应用日益广泛，如何客观且精准地评估其长文本能力已成为一个亟待解决的问题。传统上，困惑度（Perplexity, PPL）被视为衡量模型语言理解与生成质量的标准指标——困惑度越低，通常意味着模型对下一个词的预测能力越强。由于长文本可