摘要:将用户界面截图解析为结构化、易理解的元素,能够可靠地识别用户界面中的可交互图标,理解截图中各种元素的语义,并准确将预期动作与屏幕上的相应区域关联起来。能将用户界面截图转化为可被大型语言模型理解的结构化元素,解决了通用 LLM 模型作为 GUI 智能体的一些挑战
微软开源的一个面向纯视觉 GUI 智能体的屏幕解析工具,它能:
将用户界面截图解析为结构化、易理解的元素,能够可靠地识别用户界面中的可交互图标,理解截图中各种元素的语义,并准确将预期动作与屏幕上的相应区域关联起来。能将用户界面截图转化为可被大型语言模型理解的结构化元素,解决了通用 LLM 模型作为 GUI 智能体的一些挑战。体验地址:https://huggingface.co/spaces/microsoft/OmniParser-v2开源地址:https://github.com/microsoft/OmniParser项目主页:https://microsoft.github.io/OmniParser来源:AI工具箱
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!