百川智能发布大模型Baichuan 3，评测表现不俗

科技三易生活网 2024-01-30 19:56

1月29日，百川智能方面宣布发布超千亿参数的大语言模型Baichuan 3。据了解，与百亿、几百亿级别参数模型训练不同，超千亿参数模型在训练过程中对高质量数据、训练稳定性、训练效率的要求均高出数个量级。为了更好地解决相关问题，百川智能方面在训练过程中针对性地提出了“动态数据选择”、“重要度保持”，以及“异步CheckPoint存储”等多种创新技术手段及方案，有效提升了Baicuan 3的各项能力。

具体而言，在高质量数据层面百川智能方面认为，数据的优化和采样是一个动态过程，应该随着模型本身的训练过程优化，而非单纯依靠人工先验进行数据的采样和筛选。为全面提升数据质量，百川智能设计了一套基于因果采样的动态训练数据选择方案，该方案能够在模型训练过程中动态地选择训练数据，极大提升数据质量。

在训练稳定性层面，为解决超千亿参数模型由于参数量巨大而在训练过程中经常会出现梯度爆炸、loss跑飞、模型不收敛等问题，百川智能方面提出了“重要度保持”（Salience-Consistency）的渐进式初始化方法，用以保证模型训练初期的稳定性。同时，百川智能方面还优化了模型训练过程的监控方案，在梯度、Loss等指标上引入了参数“有效秩”的方法来提早发现训练过程中的问题，极大加速对训练问题的定位，确保了最后模型的收敛效果。

此外为了确保在数千张GPU上高效、且稳定地训练超千亿参数模型，百川智能方面还同步优化了模型的训练稳定性和训练框架，并采用“异步CheckPoint存储”机制，可以无性能损失地加大存储的频率，减少机器故障对训练任务的影响，使Baichuan 3的稳定训练时间达到一个月以上，故障恢复时间不超过10分钟。

据百川智能方面公布的相关数据显示，Baichuan 3在多个英文评测中表现出色，达到接近GPT-4的水平；在CMMLU、GAOKAO等多个中文评测榜单上表现已超越GPT-4；在MT-Bench、IFEval等对齐榜单的评测中超越了GPT-3.5、Claude等大模型，处于行业领先水平。

值得一提的是，得益于百川智能方面在模型预训练阶段构建了超过千亿Token的医疗数据集，并针对医疗知识激发的问题在推理阶段针对Prompt做了系统性的研究和调优，以及自身所具有的强大的基础逻辑推理能力，Baichuan 3在医疗领域的任务效果提升显着，在各类中英文医疗测试中的成绩提升了2到14个百分点，号称是目前医疗能力最强的中文大模型。

此外百川智能方面指出，虽然基于强化学习对齐后的模型不仅可以更精准地理解用户指令，还能进一步提升生成内容的质量。但是在大模型中充分发挥强化学习的作用不仅需要稳定且高效的强化学习训练框架和高质量的优质偏序数据，还需要在“探索与利用”两者间进行平衡，实现模型能力持续爬坡。对此，其进行了深入研究，并给出了针对性的解决方案。

据了解，在强化学习训练框架层面，百川智能方面自研了训练推理双引擎融合、多模型并行调度的PPO训练框架，能够很好支持超千亿模型的高效训练，训练效率相比业界主流框架提升400%。在偏序数据层面，百川智能方面则创新性的采用了RLHF（基于人类反馈的强化学习）与RLAIF（基于AI反馈的强化学习）结合的方式来生成高质量优质偏序数据，在数据质量和数据成本之间获得了更好的平衡。

在此基础上，对于“探索与利用”这一根本挑战，百川智能方面通过PPO探索空间与Reward Model评价空间的同步升级，实现了“迭代式强化学习”（Iterative RLHF&RLAIF）。基于强化学习的版本爬坡，可以在SFT的基础上进一步发挥底座模型的潜力，让Baichuan 3的语义理解和生成创作能力大幅提升。

以唐诗宋词为例，Baichuan 3结合“RLHF&RLAIF”以及迭代式强化学习的方法，让大模型的诗词创作能力达到了全新高度，可用性相比当前业界最好的大模型水平提升高达500%。

【以上内容转自“三易生活网”，不代表本网站观点。如需转载请取得三易生活网许可，如有侵权请联系删除。】