摘要:Windows MCP 正式开源,大模型第一次拿到操作系统级“遥控器”——文件、注册表、网络端口,一条自然语言指令就能全链路操控。开发者用 200 行 Python 即可让 AI 替你装软件、配环境、发邮件,甚至跨应用完成“写报告→生成图表→PPT 排版”一条
Windows MCP 正式开源,大模型第一次拿到操作系统级“遥控器”——文件、注册表、网络端口,一条自然语言指令就能全链路操控。开发者用 200 行 Python 即可让 AI 替你装软件、配环境、发邮件,甚至跨应用完成“写报告→生成图表→PPT 排版”一条龙。Agent 时代的基础设施已就位,下一个被自动化“拿下”的,就是你的桌面。
大家好,我是苍何。
讲真的,现在的大模型,就像一个超级聪明的大脑,你问它什么它都知道。
但它一直有个痛点,就是没有手和脚,只能动嘴皮子,没法真的帮你做事。
为了解决这个问题,MCP(Model Context Protocol)应运而生,为大模型装上了四肢,让大模型可以方便调用外部工具和资源。
MCP 出来后,诞生出了非常多的 MCP 项目,统计了下光在 ModelScope 上就有多达 5157 个。
在 GitHub 上更是诞生了非常多基于 MCP 的优质工具,但可惜的是,大多是浏览器插件或者Web 自动化的思路,只能在网页上指点江山,系统层面上的操作相对较少。
恰巧,我今天在逛 GitHub 摸鱼的时候,就发现了一个叫 Windows-MCP的开源项目,简直是给 Windows 系统量身定做的义体,让我大开眼界。
这是项目地址:https://github.com/CursorTouch/Windows-MCP
Windows-MCP 牛逼的地方在于,它能直接操控你的操作系统!
这是什么概念?
别人家是给AI配了个浏览器扩展,这家伙是直接把AI变成了你电脑的系统管理员。从文件管理器到Photoshop,从微信到你的代码编辑器,任何桌面应用它都能染指。
比如自动打开浏览器搜索天气,并智能抓取网页
还比如可以让 Claude 打开本地的 word 文档。
还可以配合上 Gemini CLI,自动打开浏览器,找下在 X 上谁最后关注了自己。
目前,Windows MCP 可以做到:自动打开本地应用、控制窗口、模拟用户输入有丰富的 UI 自动化工具集:包括基本的键盘、鼠标操作和捕获窗口/UI 状态的工具。可做到实时交互,从一次鼠标点击到下一次的典型延迟范围为 0.7 到 2.5 秒
对应的 MCP Tool 分别是:Click-Tool:在给定的屏幕坐标上进行点击。Type-Tool:在某个元素上输入文本(可选择性地清除现有文本)。Clipboard-Tool:使用系统剪贴板进行复制或粘贴。Scroll-Tool:在窗口或特定区域内进行垂直或水平滚动。Drag-Tool:从一个点拖拽到另一个点。Move-Tool:移动鼠标指针。Shortcut-Tool:按下键盘快捷键(如 Ctrl+c, Alt+Tab 等)。Key-Tool:按下单个按键。Wait-Tool:暂停指定的时长。State-Tool:结合默认语言、浏览器、活动应用、可交互/文本/可滚动元素以及桌面截图的综合快照。Resize-Tool:用于更改应用的窗口大小或位置。Launch-Tool:从开始菜单启动一个应用程序。Shell-Tool:用于执行 PowerShell 命令。Scrape-Tool:用于抓取整个网页的信息。
看到这你肯定也心动了,想知道这玩意儿怎么用吧?
别急,我看了下文档,其实还挺简单的,可在任意 MCP 客户端使用,官方推荐在 Gemini CLI 和 Claude Desktop 中效果更佳。
以 Claude Desktop 为例,分以下几步:
第一步:下载项目找个地方,直接用git把项目克隆下来。git clone https://github.com/CursorTouch/Windows-MCP.git
第二步:构建扩展文件进入项目目录构建扩展文件。cd Windows-MCP npx @anthropic-ai/dxt pack
第三步:Claude Desktop 中配置打开设置 → 扩展 → 安装扩展,选择生成的 DXT 文件即可完成安装
添加到 Gemini CLI 也很简单,先在文件资源管理器中导航到 %USERPROFILE%/.gemini 并打开 settings.json。
然后在 settings.json 中添加 windows-mcp 配置并保存。{ “theme”: “Default”, …//MCP Server Config”mcpServers”: { “windows-mcp”: { “command”: “uv”, “args”: [ “–directory”, “
”, “run”, “main.py” ] } }}
就这么简单,一个能听懂人话的 AI 电脑管家就诞生了。
说实话,这种操作系统级别的 MCP 开源出来,想象空间实在太大了。
以后我们衡量一个人会不会用电脑,可能不再是看他会不会用某个软件,而是看他会不会给 AI 提需求。
我已经把项目地址贴在下面了,感兴趣的兄弟可以冲了!
MCP 火过一阵后,现在仿佛过气了,但其实也有不少公司在偷偷发力,纷纷把自己的工具或核心业务 MCP 化。
就比如最近发现滴滴也发布了个滴滴 MCP。
好了,现在也可以把叫车交给大模型了,结合地图和旅游信息,做出行管家,这会真可一条龙服务了。
在无数的热度退却后,留下的是更深的思考,如何结合自己的业务场景让技术和工具发挥出最大的价值。
或许才是我们需要好好琢磨的地方。
另外你们觉得这个 Windows MCP 项目最能解放双手的场景是啥?评论区告诉我!
别忘了点赞关注,我研究透了就立马出个视频版保姆级教程!
来源:人人都是产品经理