![]() |
![]() |
语言大模型能力提升主要体现为四方面:上下文窗口,知识密度增强和强化学习等 |
||
2024/12/13 16:38:00 | ![]() |
|
OpenAI 等基于大量工程实验和反复验 证提出缩放定律,揭示了模型能力与计算能力、参数量和数据量间 的定量关系,业界也遵循该定律指导资源要素投入、推动模型创新 发展,近年来在模型技术能力、通用泛化水平等方面取得一系列突 破性进展。目前,大模型支持模态已逐步从自然语言处理拓展到多 模态理解和生成等场景。 从 2023 年至今的基准测试结果来看,大模型能力已经出现 阶跃式提升。语言大模型能力提升主要体现为以下四方面。 一是上下文窗口长度扩展,提升全局能力。大模型的上下文窗口长度是指 模型在执行文本生成任务时,能够处理的前置文本的数量或长度, 决定了模型对信息的理解深度和广度,对于理解和生成连贯、一致 且准确的文本具有重要意义。当前,国内外主流大语言模型均具备 128k 以上的上下文长度处理能力,可一次性处理数十万单词或汉字。 二是知识密度增强,储存更多知识。随着数据、算力、算法协同发 展,大模型知识密度持续增强,平均每 8 个月翻一番。2020 年 6 月 发布的 GPT-3 大模型有 1750 亿个参数,2024 年 2 月面壁智能发布 MiniCPM-2.4B 模型在实现同等性能的同时,参数规模降至 24 亿, 相当于知识密度提G了约 86 倍。 三是 MoE 混合专家架构能够容纳更多知识,准确刻画任务。MoE 稀疏激活多个专家子模型支路,加权 融合多个子模型结果,实现更加准确的输出,提G推理计算效率。 目前,谷歌的 Gemini-1.5 Pro、Mistral AI 的 8x7B 与 8x22B、阿里云 Qwen-1.5 MoE、阶跃星辰 Step-2 等头部大模型均采用 MoE 架构, 已 成 为 当 前 大 模 型 的 重 要 演 进 趋 势 。 四 是通过强化学习 (Reinforcement Learning,RL)将思维链(Chain of Thought,CoT) 内化进模型,提升复杂推理能力。2024 年 9 月 OpenAI 发布的 o1 系 列模型在后训练(Post-Training)阶段采用强化学习和思维链的技术方案,不仅在“慢思考”后回答复杂问题的表现优异(尤其是在 STEM L域的推理能力显著增强),还具有了自我反思与错误修正能力, 使自博弈强化学习有望成为提升语言大模型逻辑推理能力的技术新范式。
|
||
上一篇 下一篇 |
返回顶部 ∧ |
技术支持 |
关于创泽 |
隐私条款 |
|
版权所有 @ 创泽智能机器人集团股份有限公司 运营中心 / 北京市·清华科技园九号楼5层 生产中心 / 山东省日照市开发区太原路71 |