![]() |
![]() |
DeepSeek原理与落地应用,基于上下文预测下一个 token,激发深度思考等,提升对话质量 |
||
2025/3/7 10:45:31 | ![]() |
|
人工智能概念辨析:介绍大模型相关术语,回顾大模型从运算推理、知识工程到深度学习的发展历程,对比生成模型和推理模型在定位、推理能力、多模态支持、应用场景和用户交互体验的差异。 DeepSeek R1 公司与模型:DeepSeek 成立于 2023 年 7 月,获幻方量化支持,专注大语言模型开发。旗下模型包括生成模型 V3 和推理模型 R1,R1 具有推理能力强、开源、低成本、国产化等特点,在国际竞争中处于梯队。 使用与部署:提供官方网页、APP、API,还可通过超算平台等第三方渠道使用。个人可通过 Ollama 部署蒸馏模型,企业可利用 vLLM 进行生产J部署。部署 R1 满血版需特定算力支持,不同算力配置价格不同。 模型原理:GPT 采用 Transformer 架构,经预训练、监督微调等阶段,基于上下文预测下一个 token。生成模型有语言理解和生成等能力,但存在幻觉等问题。DeepSeek R1 通过思维链、强化学习和蒸馏技术,提升推理能力,减少模型大小。 落地应用 提示词技巧:包括真诚直接、使用通用公式、说人话、反向 PUA、善于模仿、擅长锐评、激发深度思考等,可提升对话质量。 应用场景:适用于推理密集型任务、教育与知识应用、文档分析、开放L域问答写作等场景。在教育与学术L域,可用于教学设计、作业批改、论文辅助等;在知识付费L域,可进行课程大纲设计、直播脚本撰写等。
![]() |
||
上一篇 下一篇 |
返回顶部 ∧ |
技术支持 |
关于创泽 |
隐私条款 |
|
版权所有 @ 创泽智能机器人集团股份有限公司 运营中心 / 北京市·清华科技园九号楼5层 生产中心 / 山东省日照市开发区太原路71 |