一个基于推理大语言视觉的检测模型:VLM-R1

360影视 国产动漫 2025-03-12 07:04 3

摘要:借鉴DeepSeek推理模型的思路,上传一张图片,输入描述文字,模型会返回思考过程和区域标注,检测区域还挺准确的,也支持中文。体验地址:https://huggingface.co/spaces/omlab/VLM-R1-Referral-Expression

借鉴DeepSeek推理模型的思路,上传一张图片,输入描述文字,模型会返回思考过程和区域标注,检测区域还挺准确的,也支持中文。

体验地址:https://huggingface.co/spaces/omlab/VLM-R1-Referral-Expression开源地址:https://github.com/om-ai-lab/VLM-R1

来源:AI工具箱

相关推荐