为您点击的AI:微软研究揭示图形用户界面自动化的未来

摘要:获取独家人工智能更新。微软研究人员与学术合作伙伴的调查显示,基于大型语言模型的人工智能代理正在改变人机交互方式,能够理解自然语言并自动执行软件操作。这种技术将使用户通过简单的对话命令完成复杂任务,提升用户体验。企业人工智能助手的崛起,如微软的Power Aut

加入我们的新闻通讯,获取独家人工智能更新。微软研究人员与学术合作伙伴的调查显示,基于大型语言模型的人工智能代理正在改变人机交互方式,能够理解自然语言并自动执行软件操作。这种技术将使用户通过简单的对话命令完成复杂任务,提升用户体验。企业人工智能助手的崛起,如微软的Power Automate和Copilot,正在重塑技术格局,预计到2028年市场将达到689亿美元。然而,隐私、计算性能和安全性等挑战仍需解决。研究团队建议开发高效模型和安全措施,以确保在处理复杂命令时的安全性和效率。技术领导者需评估与这些系统相关的安全隐患和基础设施需求,推动多代理架构和多模态能力的发展,以适应不断变化的环境。

订阅我们的每日和每周新闻通讯,以获取与行业领先的人工智能报道相关的最新更新和独家内容。保持对迅速发展的人工智能技术及其应用的了解。

微软研究人员与学术合作伙伴最近进行的一项全面调查揭示,基于大型语言模型(LLMs)的人工智能代理正在日益能够管理图形用户界面(GUIs)。这一进展可能会显著改变个人与软件的互动方式。这项技术使得人工智能系统能够以类似于人类的方式感知和操控计算机界面——点击按钮、填写表单、浏览应用程序。与其要求用户熟悉复杂的软件命令,这些“GUI代理”能够理解自然语言请求,并自动执行必要的操作。

研究人员强调:“这些代理代表了一种范式转变,使用户能够通过简单的对话命令执行复杂的多步骤任务。”它们的应用涵盖网页导航、移动应用互动和桌面自动化,提供了一种变革性的用户体验,重新定义了个人与软件的互动方式。想象一下,您拥有一位高技能的执行助理,可以代表您操作任何软件程序;您只需表达您的目标,他们便会处理所有技术细节,使其成为现实。

企业人工智能助手的出现正在重塑技术格局。主要科技公司正在竞相将这些功能整合到他们的产品中。例如,微软的Power Automate利用LLMs帮助用户在应用程序之间创建自动化工作流。此外,该公司的Copilot人工智能助手可以根据文本命令直接操控软件。与此同时,Anthropic的Claude计算机使用功能使人工智能能够与网页界面互动并执行复杂任务。谷歌也在开发Project Jarvis,一个旨在利用Chrome浏览器执行网页任务(如研究、购物和旅行预订)的人工智能系统,尽管这一能力仍在开发中,尚未向公众发布。

论文指出:“大型语言模型的出现,特别是多模态模型,开启了GUI自动化的新纪元。”这些模型在自然语言理解、代码生成、任务泛化和视觉处理方面展现出卓越的能力。BCC Research的分析师估计,这可能代表到2028年达689亿美元的市场机会,因为企业寻求自动化重复性任务,提高非技术用户的软件可用性。预计市场将从2022年的83亿美元增长到这一数字,预测期间的年均增长率(CAGR)为43.9%。

尽管前景广阔,但在企业广泛采用这一技术之前,仍然存在重大挑战。研究人员已识别出几个关键限制,例如代理管理敏感数据时的隐私问题、计算性能的限制,以及对安全性和可靠性保障的需求。论文指出:“尽管这些方法在预定义工作流中有效,但缺乏动态、现实应用所需的灵活性和适应性。”

研究团队制定了详细的路线图,以应对这些挑战,强调需要更高效的模型,这些模型能够在设备上本地运行,强有力的安全措施,以及建立标准化评估框架。研究人员强调:“通过纳入保护措施和可定制的操作,这些代理确保在处理复杂命令时的效率和安全性,”突显了旨在使技术适合企业使用的最新进展。

对于企业中的技术领导者而言,基于LLM的GUI代理的崛起既带来了机遇,也带来了战略考量。虽然这一技术通过自动化提供了显著的生产力提升,组织必须仔细评估与部署这些人工智能系统相关的安全隐患和基础设施需求。论文进一步解释道:“GUI代理领域正朝着多代理架构、多模态能力、多样化行动集和新颖决策策略的方向发展。”这些创新标志着在创建能够在多变和动态环境中高效表现的智能、适应性强的代理方面取得了实质性进展。

来源:老孙科技前沿一点号

相关推荐