DeepSeek带来的AI变革,在低精度FP8的模式下训练大模型,计算成本降低约1000倍

2025/3/6 16:21:22 4617 
 

一、用户量:海外加速出圈,迅速登D下载榜单

1、网页端:重度用户为主,DeepSeek 在 24 年 12 月 26 日推出V3(对标 GPT4o),因其显著的性能,用户迅速开始增长,同时在 1月 20 日发布 R1(对标 GPT-o1)后,进一步出圈。

2、APP 端:大众用户为主,R1 推出后,追平 GPT-o1,迅速出圈海外。根据点点数据,从 DeepSeek 在美国下载排名从 1 月 22 日的 201名,迅速在 1 月 27 日登D名;根据七麦数据,截止 1 月 30 日,DeepSeek 在 168 个位居下载榜名。

二、DeepSeek 偏好激进性创新:架构(MOE+MLA)+精度(FP8)

1、MOE 架构创新:相比过去主流模型的 MOE 专家模型停留在8~16 个,而 DeepSeek 每个 MoE 层包含 1 个共享专家和 256 个路由专家,有助于降低模型推理时激活的参数量。

2、MLA 架构创新:MLA 通过联合压缩键值矩阵为低秩向量,将多个头的键值信息融合,使推理时仅需缓存少量低秩向量,大幅降低 KV 缓存需求,减少内存占用。

3、训练特色:突破大模型训练固定思维(一般模型权重和梯度使用 FP16,优化器参数使用 FP32),敢于尝试在低精度 FP8 的模式下训练大模型,并且该尝试同样出现了较好的效果。

三、DeepSeek 开源对 AI 应用和 AI 终端的影响:产品力竞争时代

DeepSeek 从 V3 到 R1,将进一步推动全行业大模型的提升,更快的追赶 GPT4o 和 GPT-o1;同时成本的下降,有助于 AI 应用和 AI 终端的普及。未来行业竞争将进入“产品能力竞争”,巨头的流量优势将进一步凸显。

四、DeepSeek 对推理成本的影响:用户规模和使用频次

未来推动推理成本增加的核心因素:用户规模和用户使用频次的增加。根据 Grok 创始人,过去 60 年,每10年计算成本降低约1000倍,但人们的购买量增加了 10 万倍,总支出反而增长了 100 倍。




附件:DeepSeek带来的AI变革,在低精度FP8的模式下训练大模型,计算成本降低约1000倍



 
上一篇   下一篇
 
返回顶部
  技术支持
  关于创泽
  隐私条款
咨询热线
 
销售咨询
4006-935-088 / 4006-937-088
 
客服热线
4008-128-728

版权所有 @ 创泽智能机器人集团股份有限公司
运营中心 / 北京市·清华科技园九号楼5层
生产中心 / 山东省日照市开发区太原路71