梁文锋等发表DeepSeek V3回顾性论文
近日DeepSeek创始人梁文锋等人发表了一篇名为《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for Al Architectures(深入了解DeepS
论文 deepseek mla deepseekv3 文锋 2025-05-16 09:02 1
近日DeepSeek创始人梁文锋等人发表了一篇名为《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for Al Architectures(深入了解DeepS
论文 deepseek mla deepseekv3 文锋 2025-05-16 09:02 1
在保持性能不变的情况下,论文采用了双重视角——跨越硬件架构和模型设计,通过研究这种协同作用,探索 DeepSeek-V3 如何实现经济高效的大规模训练和推理。
训练 论文 deepseek 软硬 deepseekv3 2025-05-15 16:17 3
在保持性能不变的情况下,论文采用了双重视角——跨越硬件架构和模型设计,通过研究这种协同作用,探索 DeepSeek-V3 如何实现经济高效的大规模训练和推理。
训练 论文 deepseek 软硬 deepseekv3 2025-05-15 14:45 1
2T万亿参数,5.2PB训练数据,高效利用华为芯片……只能说如果有一半是真的都很牛了。
模型 甘蔗 r2 deepseek deepseekv3 2025-04-28 15:32 5
在本节中,将针对DeepSeek V3模型,介绍它所适用的传统提示词技巧。
文案 苏瑾 deepseek 表情符号 deepseekv3 2025-04-18 16:58 6
2025年,大模型技术迎来新一轮爆发,DeepSeek公司推出的V3与R1两大模型成为行业焦点。V3以“通用高效”横扫多领域任务,R1则以“推理专家”身份攻破复杂逻辑难题。两者的差异不仅是技术路线的分野,更折射出AI行业从“规模扩张”向“垂直深耕”的转型趋势。
模型 deepseek deepseekv3 v3 vsr1 2025-04-18 13:44 6
语言是离散的,所以适合用自回归模型来生成;而图像是连续的,所以适合用扩散模型来生成。在生成模型发展早期,这种刻板印象广泛存在于很多研究者的脑海中。
llm deepseek 掰手腕 deepseekv3 扩散 2025-04-07 15:48 6
原生多模态Llama 4终于问世,开源王座一夜易主!首批共有两款模型Scout和Maverick,前者业界首款支持1000万上下文单H100可跑,后者更是一举击败了DeepSeek V3。目前,2万亿参数巨兽还在训练中。
王座 模态 开源 llama deepseekv3 2025-04-06 09:48 6
AI技术的发展为我们提供了强大的工具,能够帮助我们快速生成高质量的文章总结卡片。本文将介绍一款升级版的文章总结卡V2,它支持DeepseekV3模型,效果媲美Claude3.7,并新增了竖版卡片设计,方便在手机上阅读。
v2 卡片 deepseekv3 deepseekv3效果 2025-03-31 17:03 9
在日常生活中,我们常常会遇到各种各样的问题,无论是工作中的技术难题,还是生活中的琐碎疑问,搜索工具已经成为我们获取信息的主要途径。然而,随着信息量的爆炸式增长,传统的搜索引擎逐渐暴露出一些不足。比如,搜索结果的质量参差不齐,尤其是一些小众、冷门的问题,往往难以
搜索引擎 deepseek 百科知识 deepseekv3 2025-03-28 00:49 6
昨晚 DeepSeek 发布了 V3 模型更新(DeepSeek-V3-0324),在这个新的版本上编程能力大幅提升。在即将发布的 AutoDev V2 中, 将 DeepSeek V3 与 R1 作为核心模型。与白天的测试相比,AutoDev V2 在晚上的
编程 开源 v2 deepseekv3 autodevv2 2025-03-25 18:07 8
在科技圈,“中美 AI 差距究竟有多大” 一直是热门话题。如今,李开复的一句话,如一颗重磅炸弹,在行业内外掀起惊涛骇浪 —— 他宣称,DeepSeek 已将中美 AI 领域某些方面的差距,缩小至短短 3 个月。这一言论到底是噱头,还是确有其事?今天,咱们就深入
李开复 deepseek 数据集 deepseekv3 v3 2025-03-26 11:53 10
中国人工智能初创企业DeepSeek近日发布其最新大语言模型DeepSeek-V3-0324,以全面升级的技术架构向OpenAI、Anthropic等美国AI领军企业发起挑战。这一跨越式进展不仅彰显中国在人工智能领域的雄心,更将中美AI竞赛推向新高度。
震撼 硅谷 李开复 deepseek deepseekv3 2025-03-26 10:31 8
理想汽车本周重新开始发布销量周榜,不过没有公布行业排名,只有自家数据:2025 年第 12 周(3.17-3.23),理想汽车周销量 0.86 万辆。>> 查看详情
deepseek 版本升级 deepseekv3 科 谢广军 2025-03-26 08:20 7
2025 年 3 月 25 日,DeepSeek 悄然发布了一种新的大语言模型,该模型已经在 AI 行业掀起了轩然大波,不仅仅由于它的强大功能,还由于其部署方式。这款 641 GB 的模型名为 DeepSeek-V3-0324,今天出现在 AI 代码存储库 H
deepseek token deepseekv3 open 2025-03-25 18:15 8
没有任何公告、没有发布博客文章、没有营销宣传,就连 README.md 也是空空如也,DeepSeek 悄悄在深夜上线了一款 685B 的大模型——DeepSeek-V3-0324,并直接发布在 Hugging Face(https://huggingface
ultra m3 deepseekv3 m3ultra 51 2025-03-25 11:31 8
在 Deepseek、Qwen 和 o3 的围追堵截下,今天凌晨,谷歌一口气连发了三款模型:Gemini 2.0 Pro、Gemini 2.0 Flash ,Gemini 2.0 Flash-Lite:
gemini deepseek deepseekv3 2025-02-07 14:20 17
去年 12 月,谷歌发布 Gemini 2.0 Flash 的实验版本,正式开启了代理型 AI 的新时代。Gemini 2.0 Flash 是谷歌为开发者群体打造的高效主力模型,具有低延迟、高性能等优势。今年早些时候,谷歌在 Google AI Studio
gemini 谷歌 deepseekv3 2025-02-06 13:43 14
当我们在欢呼Deepseek超越ChatGPT时,来自美国的艾伦人工智能研究所(Ai2)推出了基于强化学习的新一代开源模型Tülu 3 405B,不仅能够媲美GPT-4o,更在多项关键基准测试中超越了DeepSeek v3。
开源 deepseekv3 ai2 2025-02-05 15:50 12
近日,中科曙光国家先进计算产业创新中心有限公司传来喜讯,其海光信息技术团队宣布,已成功实现DeepSeek V3与R1模型与海光DCU(深度计算单元)的国产化适配,并正式上线供用户使用。这一消息标志着我国在AI模型与硬件适配领域取得了又一重要进展。
dcu deepseekv3 海光dcu 2025-02-05 02:12 12