clip模型

双域稳健性：CLIP模型需要一个稳健的文本编码器

在当今人工智能发展迅速的时代，多模态模型因其同时处理文本和图像的能力而广受关注。其中，CLIP（Contrastive Language-Image Pretraining）模型以其简单而强大的设计成为众多视觉-语言任务的基础工具。这项由瑞士洛桑联邦理工学院（