字节Seed-Coder开源新风向!首次开源代码模型,8B参数拿下多个SOTA

360影视 日韩动漫 2025-05-13 14:32 1

摘要:最近,字节跳动Seed团队开源 8B 参数代码模型Seed-Coder,超越Qwen3,通过自我生成和筛选训练数据实现 SOTA 表现,支持 32K 上下文并采用 MIT 协议,为开发者提供轻量级高性能编程工具。

最近,字节跳动Seed团队开源 8B 参数代码模型 Seed-Coder,超越Qwen3,通过自我生成和筛选训练数据实现 SOTA 表现,支持 32K 上下文并采用 MIT 协议,为开发者提供轻量级高性能编程工具

项目主页:https://bytedance-seed-coder.github.io/技术报告:https://github.com/ByteDance-Seed/Seed-Coder/blob/master/Seed-Coder.pdfGithub地址:https://github.com/ByteDance-Seed/Seed-CoderHuggingFace地址:https://huggingface.co/collections/ByteDance-Seed/seed-coder-680de32c15ead6555c75b0e4

Seed-Coder 是一个专注于代码生成、编程和软件工程任务的模型系列,包含三个主要变体:

Seed-Coder-8B-Base:基于模型为中心的代码数据预训练,奠定坚实基础。Seed-Coder-8B-Instruct:通过指令微调优化,擅长响应用户编程意图。Seed-Coder-8B-Reasoning:强化推理能力,适用于复杂软件工程场景。

Seed-Coder在编程领域的表现出色,尤其是:

Instruct 版本在 SWE-bench(软件工程任务评测)和 Multi-SWE-bench(多语言代码修复基准)两个基准测试测试中拿下 SOTA,甚至超过一些更大的模型。Reasoning 版本在 IOI 2024(国际信息学奥林匹克相关任务)上超越了 QwQ-32B 和 DeepSeek-R1,并在 Codeforces 比赛中实现与 o1-mini 相当的ELO评分。证明了较小的 LLM 也可以胜任复杂的推理任务。

Seed-Coder 堪称“轻量级王者”,8B参数规模虽小,却凭借精细的数据处理和训练策略,实现了媲美更大模型的性能。

Seed-Coder 最大的创新是提出了一种“模型为中心”的数据处理方式,大幅减少人工干预,提升数据筛选效率。

利用小型语言模型(LLM)自动策划和过滤代码数据,取代传统的手工规则。

这种方法通过以下步骤实现:

预处理:模型会从 GitHub 和网络档案爬取原始代码数据,实施了精确和近似去重技术,并开发了启发式规则来在预处理阶段剔除明显的低质量文档。质量过滤:基于 DeepSeek-V2-Chat 训练的评分模型,从22万+份代码文档中筛选高质量数据,评估维度包括可读性、模块性、清晰度和可重用性。提交数据优化:从14万个高星级GitHub仓库中提取7400万个提交记录,格式化为代码变更预测任务,生成约1000亿token的预训练语料。多阶段预训练:结合文件级代码、网络数据、高质量数据集及长上下文数据,通过Fill-in-the-Middle(FIM)和 Suffix-Prefix-Middle(SPM)训练增强上下文感知能力。

字节跳动近期在 AI 领域的动作频频,Seed-Coder 的发布是其开源战略的重要一环。除了代码模型,字节还开源了视频生成模型和推理模型,致力于降低 AI 开发门槛,构建开放的生态系统。

视频生成模型 Seaweed,70亿参数原生支持1280x720分辨率、任意宽高比和时长视频生成,效果超越140亿参数模型,成本优势明显。深度思考模型 Seed-Thinking-v1.5,更轻量级、更少激活参数,在数学、代码等推理任务重超越DeepSeek-R1。与清华联手推出了电脑操作智能体 UI-TARS,超越GPT-4o等,且免费商用。它在Qwen-VL基础上而来,能一步步自动完成跨任务的复杂操作,并兼容各种系统。...

参考:

更多免费AI功能 云片AI:https://y-p.cc/?f=tt

来源:AIGC研究社一点号

相关推荐