一个将截图解析为结构化元素的工具：OmniParser

摘要：将用户界面截图解析为结构化、易理解的元素，能够可靠地识别用户界面中的可交互图标，理解截图中各种元素的语义，并准确将预期动作与屏幕上的相应区域关联起来。能将用户界面截图转化为可被大型语言模型理解的结构化元素，解决了通用 LLM 模型作为 GUI 智能体的一些挑战

微软开源的一个面向纯视觉 GUI 智能体的屏幕解析工具，它能：

将用户界面截图解析为结构化、易理解的元素，能够可靠地识别用户界面中的可交互图标，理解截图中各种元素的语义，并准确将预期动作与屏幕上的相应区域关联起来。能将用户界面截图转化为可被大型语言模型理解的结构化元素，解决了通用 LLM 模型作为 GUI 智能体的一些挑战。体验地址：https://huggingface.co/spaces/microsoft/OmniParser-v2开源地址：https://github.com/microsoft/OmniParser项目主页：https://microsoft.github.io/OmniParser