长文本有了专属困惑度!北大、MIT、阿里推出LongPPL新指标 随着大模型在长文本处理任务中的应用日益广泛,如何客观且精准地评估其长文本能力已成为一个亟待解决的问题。传统上,困惑度(Perplexity, PPL)被视为衡量模型语言理解与生成质量的标准指标——困惑度越低,通常意味着模型对下一个词的预测能力越强。由于长文本可 北大 mit token lsd longppl 2025-03-09 22:16 3