摘要:在产业智能化加速发展的当下,时间序列数据已然成为智能决策系统的关键基石。然而,传统的时间序列生成模型往往难以应对跨领域、跨风格的数据需求,且生成的数据在实际应用中缺乏可控性和实用性。为解决这些痛点,微软亚洲研究院推出开源框架 TimeCraft,融合多项研究成
编者按:在产业智能化加速发展的当下,时间序列数据已然成为智能决策系统的关键基石。然而,传统的时间序列生成模型往往难以应对跨领域、跨风格的数据需求,且生成的数据在实际应用中缺乏可控性和实用性。
为解决这些痛点,微软亚洲研究院推出开源框架 TimeCraft,融合多项研究成果,通过跨域泛化、自然语言控制与任务感知等创新技术,助力时间序列生成任务从结构理解到任务对齐的全流程能力建设。TimeCraft 的推出为产业智能化转型提供了一个真正可控、可用、可扩展的时间序列数据生成解决方案,极大地推动了合成数据在各个行业中的深度应用与落地。
在人工智能全面赋能产业的浪潮下,时间序列数据已经成为支撑智能决策系统的核心资源。从医疗监测到金融风控,从交通调度到能源管理,越来越多的关键业务都依赖于对时间序列的建模和理解。与此同时,时间序列生成技术也日益受到业界的重视,为解决数据稀缺、隐私保护和场景模拟等实际痛点提供创新解决方案。
然而,现实工业需求远比传统的生成任务更为复杂。一个真正实用的时间序列生成模型,不仅要能够应对跨领域、跨风格的数据,还需要在生成过程中具有高度可控性,允许用户自定义趋势、周期、波动等特征。更进一步,生成的数据还必须服务于实际业务目标,能够真正提升下游模型的效果,而不只是“看起来合理” ——不仅要“像”,更要“有用”。
为破解这些难题,微软亚洲研究院推出了专为真实世界设计的、基于扩散模型的通用时间序列生成开源框架 TimeCraft。TimeCraft 融合了微软亚洲研究院近年来多项时间序列生成的创新研究成果,集跨域泛化、文本控制与任务感知于一体,可提供从结构理解到任务对齐的全流程能力,致力于成为行业级合成数据的“百宝箱”。
TimeCraft GitHub 地址:
三种控制信号“读懂你的需求”
TimeCraft 支持高度灵活的推理接口,能够充分理解并响应用户对生成数据的多维度要求。用户可以通过三种方式提供控制信号:
少量样本快速适配:用户可直接上传目标领域的少量时间序列样本,无需任何标签,TimeCraft 就能够自动提取领域特征,实现对新场景的零门槛迁移和高保真生成。
自然语言文本控制:用自然语言描述需求,如“前期平稳、后期剧烈震荡”,TimeCraft 即可智能理解语义,按需生成高度契合的数据。
任务模型反馈引导:用户可接入任意下游业务模型(如重症预测器、金融趋势分类器),TimeCraft 可以根据模型反馈动态优化生成路径,确保数据真正提升下游效果。
这三种控制方式既可独立使用,也可灵活组合,让 TimeCraft 在多样化场景下实现高质量、高适应性、任务导向的数据合成。
图1:TimeCraft 架构示意图
跨域泛化:让生成模型“见多识广”,应对万千场景
在现实应用中,不同行业的时间序列数据呈现出截然不同的结构特征。无论是电力系统中的负荷曲线,医院监测中的心率波动,还是金融市场中的价格变动,背后的时间模式通常风格各异、变化多端。面对不用场景下时间序列的高度异构性,传统生成模型往往只能“专才”难以“通才”,迁移能力有限。
对此,研究员们提出了一种统一建模的跨域生成机制,在 TimeCraft 内部构建一组共享的时间序列语义原型(prototype),作为通用的时间结构词表,可以如搭积木般在不同领域间组合使用。
用户在推理阶段只需提供目标领域的少量示例序列,TimeCraft 即可通过原型分配模块(Prototype Assignment Module, PAM)自动提取结构特征,并将其映射到语义原型空间中,计算出原型组合的权重。由此生成的领域提示向量(domain prompt)将作为条件输入,引导扩散模型合成与目标风格一致的新时间序列。
凭借这一机制,TimeCraft 无需依赖领域标签,也无需针对每个新场景进行额外训练,可以在多种复杂应用中快速适配,并在电力、医疗、金融、交通等多个关键领域实现优异的跨域泛化和结构迁移能力,真正做到“见多识广、快速上手”。
点击链接,了解更多关于跨域泛化的研究 TimeDP。
文本可控生成:让自然语言成为“生成指令”
在许多真实世界场景中,业务人员常常清楚想要什么样的数据形态,却苦于缺乏充足的历史样本。比如,“我想要一组指标,在前几天缓慢上升,第10天左右出现剧烈下跌,然后进入震荡期。” 这样的需求极为常见,尤其在医疗、金融、运营管理等需要情景模拟与可控试验的领域中更为普遍。
为满足这一类有意图、少样本的场景需求,TimeCraft 引入了自然语言控制能力,实现了基于文本输入的时间序列合成方式。用户不需要具备任何建模经验,也不需要手动提供样本数据,仅通过一段自然语言描述,就能驱动模型生成结构匹配、逻辑合理的时间序列。
这一能力的实现,依赖于系统在训练阶段对“文本—时间序列”之间关系的深入建模。为了构建高质量的训练数据,TimeCraft 设计了一套多阶段的多智能体系统(multi-agent system),用于从无到有地自动生成语义准确、结构丰富的时间序列文本对。系统首先从行业报告、分析文档等多源材料中抽取通用的描述模板,并结合具体时间序列的统计特征进行内容填充,生成结构化的文本描述。随后,另一组智能体会对这些文本进行自动评估、语言优化与语义验证,确保其对生成任务具备良好的支持性和覆盖性。通过这一流程,TimeCraft 构建了覆盖多领域、多风格的大规模“时间序列–文本”对齐数据,为模型学习语言与时间结构之间的映射关系提供了坚实基础。
在推理阶段,用户只需输入一段自然语言描述,例如“该指标在前期缓慢上升,随后迅速下跌并趋于平稳”,TimeCraft 即可将其转化为控制向量,引导扩散模型合成结构匹配的时间序列。这种以自然语言驱动的生成方式,显著降低了使用门槛,让非技术专业的用户也能直观参与序列生成过程,同时为数据建模提供了更灵活的接口,在样本稀缺、需求多变的真实场景中展现出强大潜力。
图2:TimeCraft 文本控制模块,包括:(1)多智能体系统(Multi-agent System),用于生成高质量的文本-时间序列数据;(2)混合控制模块,用于实现基于文本的时序生成。
借助自然语言输入,TimeCraft 能够成为连接人类认知与机器生成之间的一座桥梁,让“一句话定制数据”的能力真正落地。在数据获取困难、标签构建成本高、需求快速迭代的业务场景中,这种文本可控的生成方式正展现出越来越广阔的应用潜力。
任务感知生成:不仅“以假乱真”,更能“助力提升”
数据生成的终极意义,在于是否能够真正赋能下游应用。现实中的许多生成方法虽然在分布拟合上表现良好,却忽视了一个关键问题——生成的数据是否对具体任务“有用”。
TimeCraft 提出了一种面向任务优化的生成范式,允许下游模型(如分类器、预测器)直接参与生成过程。在使用中,用户可以将一个训练好的下游模型接入生成流程,TimeCraft 则会利用该模型在验证集或目标集上的反馈信号,动态调整扩散过程中的采样路径,引导模型合成对任务最具帮助的样本。
具体而言,TimeCraft 引入了影响力函数(influence function)作为核心技术,用于度量每一个生成样本对下游任务性能的潜在贡献。影响函数可以估算“如果一个样本被加入训练集,模型损失函数将如何变化”,从而判断该样本是否值得生成。基于这一估计,系统会在每一步扩散过程中注入梯度引导信号,使采样轨迹朝更具正面影响的数据区域偏移。
图3:TimeCraft 框架中 influence function 机制示意图
这一机制特别适用于样本分布不均、关键事件稀缺等挑战场景。例如在医疗预测任务中,TimeCraft 能够聚焦于对下游模型提升最大的少数关键结构,通过任务感知的方式,增强模型在少样本区域的学习能力,从而提升整体的预测表现与稳健性。
任务感知生成为数据合成从“被动仿真”迈向“主动增强”提供了可行路径。它让生成不再仅服务于拟合数据分布,而是围绕实际应用目标展开,在更高层次上发挥数据生成技术的战略价值。
真实世界为本,开源共创未来
TimeCraft 从架构设计之初就以真实业务为核心,支持多种输入控制方式,具备良好的场景适应能力,并能够根据具体任务的反馈动态优化生成结果。微软亚洲研究院希望通过 TimeCraft 切实服务于数据稀缺、隐私敏感、采集成本高或实验风险大的各类时间序列应用,提供一个真正可控、可用、可扩展的生成式解决方案,推动高质量合成数据在更多实际场景中落地生根。
TimeCraft 已正式开源,欢迎广大开发者、研究者和业务伙伴访问、试用与贡献。
相关论文链接:
跨域生成
TimeDP: Learning to Generate Multi-Domain Time Series with Domain Prompts, AAAI 2025
可控性
BRIDGE: Bootstrapping Text to Control Time-Series Generation via Multi-Agent Iterative Optimization and Diffusion Modelling, ICML 2025
适应性
TarDiff: Target-Oriented Diffusion Guidance for Synthetic Electronic Health Record Time Series Generation, KDD 2025
通用时序技术
MG-TSD: Multi-granularity Time Series Diffusion Models with Guided Learning Process, ICLR 2024
TimeRAF: Retrieval-Augmented Foundation model for Zero-shot Time Series Forecasting
InvDiff: Invariant Guidance for Bias Mitigation in Diffusion Models, KDD 2025
金融应用
Controllable Financial Market Generation with Diffusion Guided Meta Agent
MarS: a Financial Market Simulation Engine Powered by Generative Foundation Model, ICLR 2025
微软亚洲研究院新书《无界》上市
当面对集体性的难题时,思想的碰撞与智慧的共鸣显得尤为重要。微软亚洲研究院历时两年打磨的《无界——透视微软创新研究之境》一书,正是献给这个时代的探索指南。
包括周礼栋院长在内的十余位顶尖科研人员参与了本书的编写工作,他们从不同角度探讨了人工智能、计算机科学及其交叉领域的最新进展,分享了前沿的展望、观点以及宝贵的科研经验。
本书已获得十余位全球顶尖学者的推荐,其中包括图灵奖得主、院士、知名高校领导、在各自领域享有盛誉的学者,以及微软亚洲研究院的杰出院友。
现在,《无界——透视微软创新研究之境》已全平台火爆开售!首批读者将获得限量版微软50周年书签,书签上的文章作者亲笔签名将随机呈现,盲盒式惊喜等你开启!
来源:微软亚洲研究院一点号