一个将截图解析为结构化元素的工具:OmniParser

将用户界面截图解析为结构化、易理解的元素,能够可靠地识别用户界面中的可交互图标,理解截图中各种元素的语义,并准确将预期动作与屏幕上的相应区域关联起来。能将用户界面截图转化为可被大型语言模型理解的结构化元素,解决了通用 LLM 模型作为 GUI 智能体的一些挑战

智能体 microsoft gui omniparser 2025-03-21 06:17  4