摘要:鉴于OpenAI和微软目前大约在数十万块GPU上运行GPT的推理,对预训练进行scaling似乎仍然能够提供所需的成本节约。参考资料:https://semianalysis.com/2024/12/11/scaling-laws-o1-pro-archite
来源:小贺看科技
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!
摘要:鉴于OpenAI和微软目前大约在数十万块GPU上运行GPT的推理,对预训练进行scaling似乎仍然能够提供所需的成本节约。参考资料:https://semianalysis.com/2024/12/11/scaling-laws-o1-pro-archite
来源:小贺看科技