开源地址:https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
值得注意的是,DeepSeek将开源秉持到底,这次将DeepSeek-V3模型的开源协议更新为与DeepSeek-R1一致的MIT协议,这一协议更为宽松,允许模型蒸馏、商用等行为,给了开发者更多的自主权。
在性能上,编程能力的优化成了最大亮点,新版本DeepSeek-V3生成前端代码的能力大大提升。
网友让模型设计的天气页面(左由新版DeepSeek-V3生成;右由初代DeepSeek-V3生成)
网友用V3新版本设计的个人网站页面
网友用V3新版本写的小游戏
网友用V3新版本写的文字卡片
据多个博主的测试,新版DeepSeek-V3在网站开发能力、UI设计方面表现优秀,只需要简单的文本提示就能快速开发各种网站、App,审美比肩目前全球最强的闭源代码模型Claude 3.7 Sonnet思维链版本。
由新版DeepSeek-V3生成
由Claude 3.7 Sonnet生成
图1 DeepSeek V3生成
图2 DeepSeek V3 0324生成
图3 Claude Sonnet 3.7生成
《科创板日报》曾报道过初代DeepSeek-V3,该模型甫一上线便以性价比“闻名”。在多项基准测试中,DeepSeek-V3的成绩超越了Qwen2.5-72 B和Llama-3.1-405 B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
幻方量化在已开源的论文中强调其训练成本极低——通过对算法、框架和硬件的优化协同设计,假设H800GPU的租用价格为每块GPU2美元/小时,DeepSeek-V3的全部训练成本总计仅为557.6万美元(注:该成本仅包括DeepSeek-V3的正式训练,不包括与先前在架构、算法或数据上的研究和消融实验相关的成本)。
DeepSeek-V3的API服务定价将上调为每百万输入tokens 0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens 8元,按缓存未命中的输入价格计,加总成本是10元人民币。
同类型模型中,OpenAI的GPT 4o定价相当高,输入:5美元/百万Token,输出:15美元/百万Token,加总成本是20美元,约合人民币140元。
(科创板日报 宋子乔)