双域稳健性:CLIP模型需要一个稳健的文本编码器 在当今人工智能发展迅速的时代,多模态模型因其同时处理文本和图像的能力而广受关注。其中,CLIP(Contrastive Language-Image Pretraining)模型以其简单而强大的设计成为众多视觉-语言任务的基础工具。这项由瑞士洛桑联邦理工学院( 模型 编码器 leaf 文本编码器 clip模型 2025-06-09 15:15 3