2024年AI大模型技术变迁情况回溯:技术演进方向,推动机器人场景应用落地,AI应用商业化

2025/1/2 11:15:16 2369 
 

2024 年大模型技术快速演进,相较于 2023 年的大小模型之 争,技术的进步方向逐步向应用落地方向倾斜,降低端侧模型 部署门槛,缩短模型推理时延,提升模型交互能力,大模型的 发展迎来了新的变化。本文将从技术视角梳理 2024 年以来大模 型各个L域发生的变化,以行业L先实践为佐证,提出大模型技术演进方向。语言大模型发展迎来新范式,通过强化学习优 化内部思维链策略,以提升复杂逻辑推理能力。多模态大模型架构正向端到端演进,决策准确性和灵敏度提升推动机器人场景应用落地。在视频生成L域,DiTs 架构的可扩展性优势显现, 推动 AI应用商业化。在硬件部署方面,模型压缩、安全控制等 技术正降低部署门槛。在智能体实践方面,垂类大模型开始在 智能终端环境应用。在合成数据策略方面,自我奖励语言模型 生成合成数据,试图打破数据瓶颈。

一、语言大模型的新范式:强化学习优化思维链

规模定律的延伸

在2024年之前,语言大模型的“规模定律”已经得到了业界的广泛认可。模型参数的扩展、数据集质量的提升以及人工微调,使得语言模型展现出了前所未有的泛化能力和通用能力。然而,2024年的技术进步,将这一定律延伸至后训练阶段。

OpenAI的o1推理大模型

今年9月,OpenAI公开发布的o1推理大模型,通过强化学习优化模型内部思维链推理逻辑步骤,模拟人的思考过程,加深对问题的理解程度,从而提升处理复杂推理任务的能力。这一技术突破,标志着语言大模型的发展迎来了新范式。

强化学习的威力

通过强化学习,模型学会了精炼思维链并优化所用策略,识别并纠正错误,将复杂步骤分解为更简单的部分,并在当前方法无效时尝试不同的途径。这一过程显著提升了模型的推理能力,在多个G难度推理基准测试中,o1的表现超越了人类专家和GPT-4o,展示了其强大的推理能力和专业知识。

二、多模态大模型:端到端架构的演进

跨模态到端到端的转变

过去,多模态大模型多采用基于语言模型为主干的跨模态架构,通过模态特定的编码器转化为统一的向量表示后再输入语言模型。但这样的架构带来了任务响应时间长、模态间交互细节损失的问题。

端到端架构的优势

2024年以来,以GPT-4o、Gemini为代表的多模态大模型开始使用端到端支持多种模态统一输入输出的模型架构。这一架构通过简化模型的输入接口,减少模态间的信息损失,提升了模型处理即时任务的响应时间。

英伟达的GR00T项目

在2024GTC大会上,英伟达发布了人形机器人项目GR00T,基于控制、执行和决策三个层J分层实现模型的端到端训练学习,通过合并反向反馈得到准确输出结果,大幅提升了机器人处理复杂任务的精度、G效性以及灵活性。

三、视频生成L域的突破:DiTs架构的可扩展性

DiTs架构的优势

2024年以来,国内外科技大厂发布的视频生成模型多以DiTs为基础,基于Transformer架构的扩散模型在视频生成任务中可扩展性优势凸显。相较于原先的U-Net卷积网络架构,Transformer骨干架构可以提供基于参数规模和训练数据量提升而带来更优越的性能。

OpenAI的Sora视频生成模型

OpenAI发布的视频生成模型Sora基于DiTs架构,在生成视频的像素稳定性、前后逻辑连续性以及信息丢失等方面有大幅提升。Sora在数据处理和视频标注L域做了创新,基于视频编码器将样本空间数据进行时间空间维度压缩和Patch化处理,再通过相应解码器实现隐空间向视频像素空间的映射,以训练新的视频压缩网络实现长视频生成的能力。

Meta Movie Gen视频生成模型

Meta Movie Gen视频生成模型发布,其在原先视频生成模型架构的基础上,叠加了一个13B参数转换器模型Meta Gen Audio,通过数百万个小时的音频参考数据的对比总结,Meta Gen Audio可准确匹配声音和画面之间的对应关系,根据不同情绪和环境的提示词,找到与画面出色契合的音乐。

四、硬件部署实践:端云结合架构的创新

苹果的Apple Intelligence

苹果在2024年6月发布的Apple Intelligence为大模型硬件部署实践提供了很好的指引。Apple Intelligence采用端云结合方案,分别在设备端和服务器端部署大小语言模型(AFM-on-device和AFM-server),不同应用可以通过统一的语义索引、意图检测等工具调用AFM模型。

量化压缩叠加适配器架构

为保障在端侧设备上运行模型同时避免精度上损失,苹果创新推出量化压缩叠加适配器的架构,一方面采用量化压缩的方法降低模型大小,同时通过LoRA适配器来恢复量化模型的精度。

Responsible AI原则

苹果制定了Responsible AI原则,包括用户赋能、代表、谨慎设计、隐私保护四大原则,被整合到基础模型开发的每一个环节中,包括数据的收集与处理、模型训练、模型评估、用户反馈等。

LLM-in-a-flash技术

苹果研发了LLM-in-a-flash技术,让大模型可以不受限于DRAM的限制,在推理时将参数加载至闪存中来辅助完成计算,分担存储压力,从而降低端侧设备部署大模型门槛。


附件:2024年AI大模型技术变迁情况回溯:技术演进方向,推动机器人场景应用落地,AI应用商业化



 
上一篇   下一篇
 
返回顶部
  技术支持
  关于创泽
  隐私条款
咨询热线
 
销售咨询
4006-935-088 / 4006-937-088
 
客服热线
4008-128-728

版权所有 @ 创泽智能机器人集团股份有限公司
运营中心 / 北京市·清华科技园九号楼5层
生产中心 / 山东省日照市开发区太原路71