一个将截图解析为结构化元素的工具:OmniParser

360影视 日韩动漫 2025-03-21 06:17 2

摘要:将用户界面截图解析为结构化、易理解的元素,能够可靠地识别用户界面中的可交互图标,理解截图中各种元素的语义,并准确将预期动作与屏幕上的相应区域关联起来。能将用户界面截图转化为可被大型语言模型理解的结构化元素,解决了通用 LLM 模型作为 GUI 智能体的一些挑战

微软开源的一个面向纯视觉 GUI 智能体的屏幕解析工具,它能:

将用户界面截图解析为结构化、易理解的元素,能够可靠地识别用户界面中的可交互图标,理解截图中各种元素的语义,并准确将预期动作与屏幕上的相应区域关联起来。能将用户界面截图转化为可被大型语言模型理解的结构化元素,解决了通用 LLM 模型作为 GUI 智能体的一些挑战。体验地址:https://huggingface.co/spaces/microsoft/OmniParser-v2开源地址:https://github.com/microsoft/OmniParser项目主页:https://microsoft.github.io/OmniParser

来源:AI工具箱

相关推荐