摘要:如何突破光学显微镜分辨率极限?奥地利科学技术研究所与谷歌研究院的Mojtaba R. Tavakoli、Julia Lyudchik等团队开发了LICONN技术,通过膨胀显微术与深度学习结合,首次用普通光学显微镜实现了哺乳动物脑组织突触级连接的可视化重建。
脑科学动态
Nature:放大16倍,让普通显微镜也能可视化突触级神经连接
如何突破光学显微镜分辨率极限?奥地利科学技术研究所与谷歌研究院的Mojtaba R. Tavakoli、Julia Lyudchik等团队开发了LICONN技术,通过膨胀显微术与深度学习结合,首次用普通光学显微镜实现了哺乳动物脑组织突触级连接的可视化重建。
▷ 借助LICONN重建的哺乳动物脑组织连接组。Credit:Nature(2025).
研究团队将脑组织样本嵌入特制水凝胶(hydrogel,遇水膨胀材料),通过物理膨胀使样本体积增大至原始尺寸的16倍,突破光学衍射极限。结合深度学习算法,系统能自动识别20纳米精度的神经元突触结构,并重建658个神经元的完整3D连接网络。与传统电子显微镜相比,该技术最大优势在于保留了分子标记信息,同时仅需使用普通实验室的标准显微镜设备。实验验证显示,膨胀过程未破坏蛋白质空间排布,组织结构完整性保持率达98%。研究为全球实验室提供了一种成本仅为电子显微镜1/10的突触图谱解决方案,未来可应用于阿尔茨海默病等神经退行性疾病的病理研究。研究发表在 Nature 上。
#神经科学 #神经机制与脑功能解析 #跨学科整合 #计算模型与人工智能模拟
Science:破解氯胺酮长效密码,抗抑郁效果延长8倍
氯胺酮虽能快速缓解抑郁症状,但效果仅持续数日且反复用药可能产生副作用。范德堡大学的Zhenzhong Ma、Natalie J. Guzikowski、Ji-Woon Kim、Ege T. Kavalali和Lisa M. Monteggia团队发现,通过增强特定脑区信号通路,可将单次用药的抗抑郁效果延长至2个月。
▷ DUSP6 作为增强 ERK 活性和延长氯胺酮抗抑郁作用的新靶点(Credit:Zhenzhong Ma)
研究团队首先发现氯胺酮能短暂激活海马区的ERK(细胞外信号调节激酶)通路。通过联合使用氯胺酮与DUSP6抑制剂BCI(可阻断ERK抑制分子),小鼠海马区的突触连接增加了50%。行为实验显示,这种联合疗法使抗抑郁效果从常规的3-7天延长至2个月。进一步机制研究发现,兴奋性神经元中的TrkB受体(脑源性神经营养因子的"接收器")是产生持久效果的关键。该研究不仅揭示了ERK通路作为抗抑郁新靶点的潜力,更为开发"一针管两月"的长效抑郁症疗法提供了理论依据。研究发表在 Science 上。
#疾病与健康 #神经调控 #心理健康与精神疾病 #突触可塑性 #ERK信号通路
为什么有人每天只睡4小时,发现高效睡眠基因
为什么有人每天只睡4小时却精力充沛?加州大学旧金山分校的傅嫈惠(Ying-Hui Fu)与中国科学院大学上海药物研究所时广森团队发现,SIK3基因的N783Y突变能让人在更短睡眠中获得充分休息,相关成果为开发高效睡眠方案提供新方向。
研究团队首先在一个短睡眠家族中鉴定出SIK3基因突变(N783Y),随后通过基因编辑技术构建携带该突变的小鼠模型。脑电图显示,突变小鼠不仅每日睡眠时间缩短约30分钟,其δ功率(反映睡眠深度的指标)还显著增高,意味着它们获得了更高效的睡眠。进一步分析发现,该突变导致编码的盐诱导激酶(salt-induced kinase)活性降低,并引发突触部位蛋白质磷酸化模式改变。值得注意的是,研究还发现蛋白激酶A(PKA)等激酶参与形成睡眠调控网络,这些激酶活性变化可能是实现"高效睡眠"的关键。相比此前发现的DEC2等短睡眠基因,SIK3突变展现出对睡眠质量的独特改善作用。研究发表在 PNAS 上。
#神经科学 #神经机制与脑功能解析 #个性化医疗 #睡眠科学
Nature:超级椋鸟揭示合作繁殖的长期互惠机制
合作繁殖鸟类为何愿意义务帮助非亲缘后代?由Alexis D. Earl和Dustin R. Rubenstein领衔的国际团队通过20年追踪研究发现,超级椋鸟通过终身角色互换形成隐秘互惠关系。
研究团队在肯尼亚中部对9个超级椋鸟群体(平均规模13-41只)进行跨越40个繁殖季的观测。通过个体环志识别和亲缘分析(mean pairwise r=0.08),发现虽然存在亲缘偏向帮助(kin-biased helping),但47%的帮助行为发生在非亲缘个体间。更惊人的是,特定个体间会通过“你今年帮我育雏,我明年帮你守巢”的角色互换(role-swapping reciprocity),建立持续终身的互惠关系——这种模式需要至少15年数据才能被统计学识别。进一步分析显示,直接适应性收益(direct fitness benefits)对雌性和扩散个体的影响比雄性高32%,表明合作策略存在性别分化。该发现为理解人类等混合亲缘社会的合作演化提供了新视角。研究发表在 Nature 上。
#认知科学 #动物行为 #合作进化 #跨学科整合 #长期追踪研究 #社会性动物
腹腔肥胖青少年的关键大脑区域较大
青少年肥胖如何重塑大脑结构?美国德克萨斯大学健康休斯顿公共卫生学院的Augusto César F. De Moraes联合多国团队发现,腹部肥胖会导致记忆和情绪相关脑区异常增大,同时社会环境劣势会进一步损害脑发育。
研究团队分析了美国ABCD项目中3,320名青少年的四年追踪数据,通过结构MRI扫描测量了杏仁核(控制恐惧/快乐的情绪中枢)、海马体(记忆核心)等皮层下区域体积。结果显示:腹部肥胖青少年海马体体积比同龄人平均大6.6%,杏仁核大4.3%,其中腰高比超过0.5的严重肥胖者杏仁核增幅最显著。更令人担忧的是,来自教育资源匮乏、绿地空间不足社区的青少年,其海马体和杏仁核发育明显滞后,这种差距在持续肥胖群体中进一步扩大。研究者指出,脑区异常增大可能源于脂肪组织引发的慢性炎症,与发育迟缓同样有害,可能增加未来出现记忆障碍和情绪失调的风险。研究发表在 European Congress on Obesity 2025 上。
#疾病与健康 #神经机制与脑功能解析 #健康不平等 #青少年肥胖 #脑发育
AI 行业动态
Transformer作者新创公司发布"连续思维机器",AI开始像人类一样分步思考
日本Sakana AI公司由Transformer架构创始人之一Llion Jones联合创立,近日发布了名为"连续思维机器"(Continuous Thought Machine,CTM)的新型人工智能模型。该模型突破性地在神经元层面引入时间维度,通过模拟生物神经元之间的同步活动机制,使AI能够像人类一样分步骤思考和解决问题。与传统人工神经网络一次性输出结果不同,CTM会在内部进行多次"思考",其推理过程具有高度可解释性,例如在解迷宫时会逐步追踪路径,识别图像时会像人类一样转移视线焦点。
这项创新源于对生物大脑工作机制的深入观察。研究团队发现,现有AI模型长期忽略神经元激活的时间信息,而这正是生物大脑高效运作的关键。CTM通过让每个神经元访问自身行为历史,并学习与其他神经元同步协作,展现出丰富的动态行为。测试显示,CTM不仅能以更接近人类的方式解决问题,在图像分类等任务上的准确率也随"思考时间"增加而提升,同时能自动调整算力分配——对简单问题减少思考步骤以节省资源。
Sakana AI表示,CTM是弥合人工与生物神经网络差距的重要一步。尽管现代AI基于简化的神经元模型已取得巨大成功,但研究者认为继续向大脑学习将开启AI能力的新维度。CTM展现出的自发涌现行为——如未经专门训练就学会人类式解迷宫方法——印证了这一方向的潜力。
#人工智能 #神经网络 #创新科技 #机器学习 #脑科学
苹果推出FastVLM视觉语言模型:图像理解速度提升85倍
苹果公司最新研发的FastVLM(Fast Vision Language Model)是一种高效的视觉语言模型编码器系统,旨在将高分辨率图像快速转换为大语言模型(LLM)可处理的视觉token。该模型专注于提升图文任务的处理速度与效率,适用于图像描述生成(Image Captioning)、视觉问答(VQA)和图像识别等场景。相较于传统模型如LLaVA和BLIP,FastVLM在速度和体积上均有显著优化,首token输出速度提升高达85倍,同时模型体积更小,适合部署在iPhone、iPad和Mac等设备上。
FastVLM的核心技术基于FastViTHD视觉主干,能够高效解析图像并生成简洁的token表示,再交由语言模型(如GPT-4或Qwen2-7B)进行后续处理。该模型提供三个版本(FastVLM-0.5B、1.5B和7B),均支持两阶段微调,并兼容主流开源LLM及HuggingFace接口。其设计特别优化了苹果M系列芯片和iOS系统,使其在边缘计算和实时图文任务中表现优异。
与传统方案相比,FastVLM解决了图像编码器复杂、处理速度慢和模型体积大的问题,成为轻量、高速、低延迟的视觉前端模块。它的出现为移动端AI应用提供了新的可能性,例如在设备端快速分析图像内容或实时生成描述,进一步推动AI技术在消费电子领域的落地。
#FastVLM #苹果 #视觉语言模型 #边缘计算 #AI
Gemini 2.5 Pro:6小时视频一键分析
Google近期推出的Gemini 2.5 Pro(I/O预览版 0506)和Gemini 2.5 Flash两款模型,标志着其在多模态AI(Multimodal AI,能同时处理多种数据类型的AI)领域的重大突破。作为全球首个原生支持视频处理的通用多模态模型,Gemini 2.5不仅能理解、分析视频内容,还能将其转化为结构化应用。与GPT-4.1相比,Gemini 2.5 Pro在相同任务设置下表现更优;而Flash版本则以更低成本实现相近性能,适用于资源受限场景。该模型支持并行处理视频(最高7200帧/6小时)、音频、文本和代码,为开发者提供了前所未有的灵活性。
Gemini 2.5的视频理解能力覆盖多种创新应用场景。例如,输入YouTube链接后,模型可自动生成学习应用的规范文档并转化为代码,快速创建交互式教程或模拟器。此外,它还能将视频内容转化为p5.js动画(一种JavaScript图形库),实现信息可视化或会议纪要图形化。更令人惊叹的是,模型能精准定位视频中的关键片段(如演讲中的产品发布节点),并支持跨时间跨度的事件统计(如统计视频中手机使用次数)。
目前,Gemini 2.5的视频理解功能已通过Google AI Studio(Google的AI开发平台)、Gemini API和Vertex AI(Google的企业级AI平台)开放使用。开发者可直接解析YouTube链接,利用其支持低清视频处理、200万token上下文(模型一次能处理的文本量)的特性,构建基于海量视频数据的应用程序。在VideoMME基准测试中,其准确率达84.7%,接近专用微调模型水平,展现出极强的竞争力。
#Gemini2.5 #视频理解AI #多模态模型 #GoogleAI #自动化创作
GitHub Copilot助攻!陶哲轩的数学工具卷出2.0版
菲尔兹奖得主陶哲轩(Terence Tao)近日在GitHub上发布了其开源数学证明助手的2.0版本。这一工具最初旨在自动化验证渐近估计(asymptotic estimates,描述变量增长关系的数学表达),如今已升级为支持命题逻辑的交互式证明助手。陶哲轩透露,开发过程中大量依赖GitHub Copilot的代码补全功能,并整合了Python符号计算库Sympy,使工具能处理更复杂的数学任务,如线性不等式推导和情况拆分。尽管功能仍逊于专业证明助手Lean,但其轻量级设计特别适合简化繁琐的数学验证流程。
在最新实验中,陶哲轩尝试用AI工具“盲做”形式化证明。他仅凭合作者Bruno Le Floch的草稿,借助Copilot和Lean的自动化策略,在33分钟内完成了一页数学证明的形式化。这一实验展示了AI如何代劳技术性推导,让研究人员专注于逻辑表达而非细节验证。不过,陶哲轩也指出当前工具存在协作管理问题,例如Lean的blueprint系统无法同时记录人类和AI生成的证明版本。
陶哲轩表示,该框架已趋于稳定,未来计划扩展其功能,如支持函数空间范数估计和集成更多数学引理。他欢迎社区贡献新策略或案例,以提升工具解决实际问题的能力。相关代码和实验视频均已公开,引发数学与计算机科学界的广泛讨论。
#数学证明助手 #陶哲轩 #GitHubCopilot #AI辅助研究 #形式化验证
OpenAI发布全新医疗AI HealthBench
OpenAI发布了名为HealthBench的全新医疗AI,旨在更准确地衡量大型语言模型(LLMs)在真实医疗场景中的表现。该基准由262位来自60个国家的执业医生共同开发,包含5000段多轮、多语言的真实健康对话,涵盖从患者到医生的多种角色和临床情境。每段对话均配有医生制定的评分标准,确保评估结果贴近临床实际需求。
HealthBench通过模拟真实的医疗对话场景,测试AI模型在多种临床情境下的应对能力。这些对话涵盖了多种医疗专业和语言,旨在评估模型在处理复杂医疗信息、理解患者需求和提供准确建议方面的表现。每段对话的评分标准由专业医生制定,确保评估结果的权威性和实用性。实验结果显示,尽管当前的LLMs在某些任务上表现良好,但在处理特定疾病信息和多语言支持方面仍存在显著差距,特别是在低资源语言和复杂医疗情境中。研究强调了开发专门针对全球健康挑战的评估基准和优化策略的必要性,以确保AI工具在实际应用中能够提供准确、可靠的支持。
#医疗AI #大型语言模型 #多轮对话 #临床评估
Prime Intellect发布拥有320亿参数的推理模型Intellect-2
Prime Intellect发布了其最新的人工智能模型Intellect-2,这是一款拥有320亿参数的推理模型,采用了分布式异步强化学习(Distributed Asynchronous Reinforcement Learning)进行训练。该模型的发布标志着全球首个无需授权、支持异构计算资源参与的去中心化强化学习训练项目的实现,为大型语言模型的训练和应用开辟了新的路径。
Intellect-2引入了多项关键技术。首先,模型采用了名为prime-RL的开源库,支持完全异步的去中心化强化学习训练,允许全球开发者利用自己的计算资源参与模型的训练过程。其次,模型引入了TOPLOC验证机制,用于高效验证去中心化节点的推理计算,确保训练过程的可信度和安全性。此外,Intellect-2还利用了Shardcast机制,实现了新策略模型的快速广播,提升了训练效率。在训练数据方面,团队构建了名为SYNTHETIC-1的高质量数据集,涵盖数学、编程和科学领域的任务,确保模型在这些领域具备强大的推理能力。实验结果显示,Intellect-2在编码、数学与科学领域的推理性能达到新高度,推动了去中心化训练技术的前沿发展。
#去中心化训练 #强化学习 #大型语言模型 #推理能力
AI 驱动科学
Cell:AI设计合成增强子,开启基因精准调控新时代
西班牙基因组调控中心的Robert Frömel、Julia Rühle等团队利用AI设计出全新合成增强子(enhancer),首次在哺乳动物细胞中实现了细胞类型特异性的基因激活与抑制。
研究团队通过分析64,400个合成增强子与38种转录因子(TF)的相互作用数据,首次系统揭示了增强子调控的三大规则:当转录因子水平低时增强子激活基因,过高则抑制(剂量依赖性);同一增强子在不同细胞中可能发挥相反作用(环境依赖性);多个激活增强子组合时反而抑制表达(负协同效应)。基于这些规则训练的AI模型,成功设计出仅在特定血液细胞(如巨核细胞)中激活荧光蛋白的增强子,以及能在白血病细胞中沉默目标基因的增强子。实验证实,这些合成增强子的特异性比天然增强子更高。该技术突破使得研究者能够"编程"细胞行为,例如引导干细胞定向分化或精准关闭致病基因。研究发表在 Cell 上。
#AI驱动科学 #基因调控 #合成生物学 #血液疾病 #精准医疗
水蒸气驱动软体机器人:科英布拉大学团队开发新型相变执行器
科英布拉大学的Diogo Fonseca和Pedro Neto团队利用水蒸气沸腾原理,开发出仅需24V电压的相变执行器,其力量足以驱动四足机器人爬树,且成本仅为传统设计的十分之一。
▷ 一个不受束缚的软体机器人在非结构化环境中沿着树干爬行。它由四个以水为工作流体的液气相变电动软体执行器驱动。Credit: Diogo Fonseca
研究团队采用“沸腾驱动”创新设计:将水密封在硅胶弹性体(silicone elastomer)腔室内,通过微型加热线圈汽化产生蒸汽压力。模块化结构支持快速组装,3D打印和铸造工艺降低成本。关键突破在于控制算法——通过实时调节加热功率避免蒸汽泡震荡(原理解释:类似烧开水时的“咕嘟”现象),使执行器在1000次循环后仍保持稳定。测试显示,其力量足以提起5公斤重物,响应速度比同类快8倍。应用案例包括能摘水果的软夹持器,以及可在25秒内完成爬行周期的四足机器人Bixo。研究发表在 Nature Communications 上。
#自动化科研 #跨学科整合 #软体机器人 #相变驱动 #仿生设计
用简单的链接粒子构建群体机器人
传统群体机器人依赖复杂传感器和中央控制,限制了应用场景。首尔国立大学的Ho-Young Kim、Kyungmin Son、Kwanwoo Kim与哈佛大学的L. Mahadevan、Kimberly Bowal团队开发出新型链式机器人系统,仅通过简单机械连接就能实现复杂群体行为。
▷ V 形链接机器人由自推进的粒子组成,这些粒子通过链状链接连接在一起。Credit: Seoul National University College of Engineering
研究团队设计了名为“link-bots”的V形链式机器人,由自推进粒子通过几何约束连接而成。通过调整链接参数(如角度和长度),机器人能自主产生不同步态,实现前进、转向等动作。计算模型显示,这种设计能预测群体行为模式。实验证明,单个link-bot可穿越狭窄缝隙、搬运物体;多个link-bot协作时能完成更复杂任务,如集体运输和环境封锁。与传统群体机器人相比,该系统无需传感器或中央处理器,具有成本低、适应性强等优势。研究为灾难救援、环境监测等场景提供了新思路,展示了简单物理交互产生复杂行为的潜力。研究发表在 Science Advances 上。
#自动化科研 #跨学科整合 #计算模型与人工智能模拟 #群体机器人 #机械智能
AI耳机实现多人实时翻译:保留原声方位与音质
公共场所多人对话翻译如何突破技术瓶颈?华盛顿大学Tuochao Chen、Shyamnath Gollakota团队开发出全球首个支持多人实时翻译的耳机系统,不仅能分离空间中的多个声源,还能保留说话者独特的音色和方位感,让跨语言交流更自然。
研究团队采用现成降噪耳机(索尼WH-1000XM4)搭载定制算法,其核心是模仿雷达的360度扫描技术(实时更新说话者数量与位置)。通过双耳信号处理,系统首先分离混杂语音,再通过轻量级神经网络(运行于Apple M2芯片)进行表达性翻译(expressive translation,即保持原声语调节奏),最后用双耳渲染技术还原声音方位。测试显示,在餐厅等嘈杂环境中,系统可同时追踪翻译6-7个移动说话者,延迟控制在3-4秒时错误率最低(BLEU得分22.01)。与现有技术相比,用户对空间音频版本的偏好度提升近3倍,能准确判断"谁在说什么方向说话"。研究特别优化了隐私保护方案,所有计算均在设备端完成。研究发表在 Proceedings of the 2025 CHI Conference on Human Factors in Computing Systems 上。
#AI驱动科学 #跨学科整合 #语音技术 #人机交互 #空间计算
BabyBot:软体机器人婴儿模仿从出生到6个月大的喂养行为
如何安全研究婴儿喂养发育?瑞士洛桑联邦理工学院CREATE实验室与雀巢洛桑研究中心的Benhui Dai、Josie Hughes等团队开发出BabyBot——首个能模拟0-6个月婴儿完整喂养行为的软体机器人,其传感器化口腔和神经控制回路可精确复现吸吮、咽反射等关键行为。
▷ 模仿婴儿的生理、动作和感知。Credit: npj Robotics (2025).
研究团队通过仿生软体舌头(采用气动网络技术实现卷曲、波浪运动)和分布式触觉传感器(覆盖硬腭、软腭区域),构建了与婴儿口腔力学特性匹配的机器人系统。神经控制回路模拟了从脑干反射到初级运动皮层的分级调控,使机器人能根据食物质地(液体/半固体)自动调整舌部运动模式。验证实验显示,BabyBot的奶瓶喂养效率与真实婴儿偏差小于15%,并能触发标准化的咽反射(gag reflex)响应异常刺激。模块化设计允许快速切换"年龄模式":新生儿模式仅支持液体摄入,而6个月模式可处理米糊等半固体食物。该平台已成功用于测试早产儿专用奶嘴设计,相比传统方法缩短了80%的研发周期。研究发表在 npj Robotics 上。
#疾病与健康 #个性化医疗 #儿科机器人 #发育生物学 #生物力学
AI医疗建议靠谱吗?研究揭示聊天机器人诊断短板
当人们越来越依赖ChatGPT等AI工具获取医疗建议时,这些建议的可靠性究竟如何?牛津大学互联网研究所Andrew M. Bean、Rebecca Payne等联合英美多机构团队开展大规模对照实验,发现尽管AI在标准测试中表现优异,但实际帮助普通人诊断疾病的效果甚至不如传统网络搜索。
研究团队设计了10个典型医疗场景(如胸痛、皮疹等),由专业医生制定标准答案。1,298名参与者被随机分配使用GPT-4o、Llama 3或Command R+(实验组),或自由选择搜索引擎等常规方式(对照组)进行诊断。结果令人意外:虽然这些大语言模型单独测试时能准确识别94.9%的疾病,但实际用户使用后仅能识别34.5%的相关病症——比对照组的47.0%更低。分析12,000条对话记录发现,用户常遗漏关键症状(如"肚子疼"却不说具体位置),而AI会因此给出错误推断。更严重的是,42%的用户低估了AI建议的严重程度(如把阑尾炎误判为肠胃炎)。研究指出,现有基于医师考试的AI评估体系(如USMLE)完全无法预测这些交互问题,呼吁开发新测试方法。
#疾病与健康 #大模型技术 #个性化医疗 #健康管理与寿命延长 #AI驱动科学
AI模型实现跨形态运动生成:从文字指令到机器人/人体动作
如何让不同形态的机器人和虚拟角色理解相同指令?布朗大学的Sudarshan Harithas和Srinath Sridhar团队开发出MotionGlot模型,该AI系统能像翻译语言一样,将文字命令转换为适合四足机器人、人形机器人等不同实体的精确动作。
研究借鉴大型语言模型的"下一标记预测"技术,将动作分解为类似词汇的离散标记。通过两个新型数据集训练:QUAD-LOCO(含48,000条带文本标注的四足机器人动作)和QUES-CAP(23,000条人类动作问答数据)。模型采用统一指令模板,使单一Transformer架构能处理"文本到动作生成"和"动作问答"等多任务。测试显示,模型不仅可精准执行"后退-左转-前进"等具体指令,还能响应"快乐行走"等抽象要求,甚至生成慢跑动作回答"展示有氧运动"的提问。在跨形态转换中,系统自动调整动作参数,使"行走"指令在人形(双腿)和机器狗(四足)上产生符合各自生物力学的运动轨迹。硬件验证表明其实际应用潜力,未来可拓展至游戏动画、康复机器人等领域。
#大模型技术 #跨学科整合 #人机交互 #机器人控制 #动作生成
可穿戴触觉技术新突破:超薄贴片让虚拟世界触手可及
现有VR触觉设备笨重且反馈单一,韩国科学技术院的Jung-Hwan Youn团队开发出全球最薄触觉贴片(0.3g),能同时提供精准触觉反馈和感知功能。
▷ 使用触觉贴片实现双向触觉通信的场景。 Credit: Hee-kyung Kwon
研究采用创新的扁平锥形介电弹性体执行器(FCDEA,一种通过电场变形产生机械力的柔性材料),通过螺旋弹簧结构将材料膨胀转化为垂直位移。单个执行器直径仅6毫米、厚1.1毫米,却能产生323mN静态力和2.2N动态力(相当于举起22枚硬币),功耗不足手机屏幕的1/10。9个执行器组成的阵列可动态模拟物体纹理,配合光电传感器实现"触觉双向传输"——医生远程操作时既能"感受"患者组织硬度,也能让患者感知医生手势。测试显示,该系统可准确再现从丝绸到砂纸的16种材质触感,延迟低于20毫秒。研究发表在 Science Advances 上。
#神经调控 #知觉康复 #VR技术 #柔性电子
机器人通过"触觉"识别物体属性,无需视觉辅助
机器人如何像人类一样通过触摸识别物体?麻省理工学院Peter Yichen Chen、Chao Liu与亚马逊机器人公司团队合作,开发出仅需机器人内部传感器的新技术,可在几秒内准确判断物体质量和柔软度,为黑暗环境中的物体识别提供解决方案。
▷ 利用本体感受信号,通过可微分物理校准物体参数。左图:我们的方法旨在识别物体参数,例如紫色球体的质量和材料特性。中图:我们利用可微分物理模拟机器人与物体之间的相互作用。右图:通过使用来自真实机器人(下图)的本体感受信号(关节位置,绿色圆圈所示),监督可微分物理模拟(上图)来识别物体参数。值得注意的是,我们的方法不需要追踪物体的轨迹(红色圆圈所示);相反,它仅依赖于机器人的内部传感器进行校准。Credit: arXiv (2024).
研究团队采用可微分物理(differentiable physics)模拟技术,构建了机器人与物体交互的数字孪生模型。该系统仅需机器人关节编码器(测量关节位置和速度的内部传感器)数据,通过分析单次交互中机器人的运动反应,即可反向推导出物体特性。实验显示,该方法在低成本机器人平台上,仅需几秒计算就能准确估计物体的质量和弹性模量(材料柔软度指标),精度与复杂视觉系统相当。特别值得注意的是,系统完全不需要追踪物体轨迹(传统方法需要摄像头或标记物),仅依靠机器人"本体感觉"就能完成识别。这种数据高效的方法在黑暗地下室分类或地震废墟搜救等视觉受限场景中展现出独特优势。
来源:东窗史谈一点号