午夜福利院在线观看免费,天堂最新版在线,色噜噜精品一区二区三区,无码一区二区三区中文字幕,丝袜美腿一区二区三区

百度教你三步極速蒸餾DeepSeek R1,效果媲美OpenAI o3 mini!

在今年1月末,DeepSeek再度拋出了一個(gè)重磅消息:“蒸餾小模型超越OpenAI o1-mini”。按官方公布數(shù)據(jù),通過DeepSeek-R1的輸出,蒸餾了6個(gè)小模型開源給社區(qū),其中32B和70B模型在多項(xiàng)任務(wù)上表現(xiàn)與OpenAI o1-mini相當(dāng)。

這一技術(shù)突破不僅讓業(yè)界眼前一亮,更為開發(fā)者提供了一條低成本、高效率的模型優(yōu)化路徑:將R1的推理能力蒸餾到小型模型中,比直接在這些小型模型上應(yīng)用強(qiáng)化學(xué)習(xí)效果會(huì)更好。要知道,蒸餾過程不需要對(duì)模型架構(gòu)進(jìn)行復(fù)雜修改,減少了開發(fā)成本,并且比從頭訓(xùn)練一個(gè)同規(guī)模的模型要節(jié)省大量的計(jì)算資源。

如今,開發(fā)者通過百度智能云千帆ModelBuilder,只需要3個(gè)小時(shí),就能把強(qiáng)大的DeepSeek-R1模型知識(shí)蒸餾到輕量級(jí)模型中,讓自己的AI應(yīng)用性能大幅提升,成本還超低。

本文將深入解析如何利用百度智能云千帆ModelBuilder完成全流程的模型蒸餾能力,并通過實(shí)戰(zhàn)展示DeepSeek-R1蒸餾再訓(xùn)練輕量級(jí)模型ERNIE Speed的過程和效果。

模型蒸餾技術(shù):讓大模型“瘦身”

在深入實(shí)戰(zhàn)之前,我們先來聊聊模型蒸餾(Model Distillation)。

什么是模型蒸餾(Model Distillation)技術(shù)?

通俗來講,模型蒸餾就是讓一個(gè)效果較好的、龐大“教師模型”,將知識(shí)“傳授”給一個(gè)較小的“學(xué)生模型”的訓(xùn)練,使得學(xué)生模型在參數(shù)量和計(jì)算復(fù)雜度較低的情況下,盡可能接近甚至超越教師模型的效果。

百度教你三步極速蒸餾DeepSeek R1,效果媲美OpenAI o3 mini!插圖

千帆ModelBuilder模型蒸餾原理

選擇“數(shù)學(xué)競(jìng)賽”,使用千帆ModelBuilder一鍵蒸餾DeepSeek-R1

為什么選擇數(shù)學(xué)競(jìng)賽?原因很簡(jiǎn)單:

一,數(shù)學(xué)問題通常具有唯一的正確答案,便于直接對(duì)比模型輸出,評(píng)估其準(zhǔn)確性。

二,數(shù)學(xué)題的解題過程能清晰地展示模型的“思考”路徑,幫助判斷模型是否真正掌握了關(guān)鍵推理能力。

在這個(gè)場(chǎng)景下,我們選取百度自主研發(fā)的輕量級(jí)大模型ERNIE Speed作為學(xué)生模型,通過公開數(shù)據(jù)集GSM8K和SCQ5K進(jìn)行了測(cè)試。

蒸餾前后模型效果:

  • 模型效果對(duì)比:取四個(gè)模型分別在公開數(shù)據(jù)集GSM8K、SCQ5K下的效果評(píng)估對(duì)比
百度教你三步極速蒸餾DeepSeek R1,效果媲美OpenAI o3 mini!插圖1
百度教你三步極速蒸餾DeepSeek R1,效果媲美OpenAI o3 mini!插圖2

蒸餾前模型的數(shù)學(xué)解題能力表現(xiàn)一般,在GSM8K、SCQ5K數(shù)據(jù)集上的表現(xiàn)分別為84%和55%。然而,蒸餾后的模型在GSM8K和SCQ5K上分別達(dá)到95%和81%??梢钥闯?,蒸餾后的模型可基本追平DeepSeek-R1,并且超過OpenAI o3-mini。

  • 回復(fù)效果對(duì)比:我們還可以通過一個(gè)具體的數(shù)學(xué)問題,直觀感受蒸餾前后模型的差異。
百度教你三步極速蒸餾DeepSeek R1,效果媲美OpenAI o3 mini!插圖3
百度教你三步極速蒸餾DeepSeek R1,效果媲美OpenAI o3 mini!插圖4

通過對(duì)比,可以看出,蒸餾后的模型在思考能力和推理深度上有了顯著提升。

在結(jié)果精準(zhǔn)性方面,蒸餾后的ERNIE Speed與“老師”DeepSeek-R1在效果上基本打成平手,性能亦實(shí)現(xiàn)大幅提升。

在思考與推理方面,蒸餾后的ERNIE Speed部分保留了DeepSeek-R1模型長(zhǎng)達(dá)數(shù)萬字的反思與驗(yàn)證過程,在推理時(shí)能通過“深度思考”模式展現(xiàn)完整的推理路徑,可對(duì)復(fù)雜問題進(jìn)行深入、全面的分析。

基于千帆ModelBuilder的全流程工具鏈實(shí)現(xiàn)高效、低成本蒸餾

那么,要達(dá)成以上蒸餾效果,需要多長(zhǎng)時(shí)間訓(xùn)練?并且多少成本呢?

訓(xùn)練時(shí)長(zhǎng):僅需約3小時(shí);

訓(xùn)練成本:最低僅需900元。

模型使用成本:蒸餾后的模型由于其更輕量,在部署時(shí)可使用更少的資源達(dá)到更高的QPS,大幅降低企業(yè)的模型使用成本。通過百度智能云千帆ModelBuilder的全流程工具鏈,開發(fā)者僅需3小時(shí)就可以完成DeepSeek-R1的蒸餾,并將ERNIE Speed的性能提升至接近DeepSeek-R1的水平。

以下是具體操作步驟:

>>第一步-基于DeepSeek-R1萃取數(shù)據(jù):采樣公開數(shù)據(jù)集s1及Math-Step-DPO的部分?jǐn)?shù)據(jù),使用千帆ModelBuilder預(yù)置的DeepSeek-R1 API進(jìn)行推理,獲取9000條原始數(shù)據(jù) 。為進(jìn)一步提升數(shù)據(jù)質(zhì)量,需要進(jìn)一步篩選過濾掉過長(zhǎng)數(shù)據(jù)、結(jié)果不準(zhǔn)確數(shù)據(jù),使用數(shù)據(jù)洞察與處理功能進(jìn)行快捷篩選與處理,最終得到7701條高質(zhì)量的SFT訓(xùn)練數(shù)據(jù)。

百度教你三步極速蒸餾DeepSeek R1,效果媲美OpenAI o3 mini!插圖5

新增推理任務(wù)

百度教你三步極速蒸餾DeepSeek R1,效果媲美OpenAI o3 mini!插圖6

數(shù)據(jù)洞察與處理功能

>>第二步-選擇輕量模型精調(diào):千帆ModelBuilder預(yù)置了豐富的基礎(chǔ)模型支持精調(diào),但由于在復(fù)雜問題上思考數(shù)據(jù)長(zhǎng),因此選擇ERNIE-Speed-Pro-128K模型進(jìn)行SFT訓(xùn)練。在訓(xùn)練過程中本次訓(xùn)練迭代輪次設(shè)置為3,學(xué)習(xí)率設(shè)置為3e-5,序列長(zhǎng)度設(shè)置為32768,保證訓(xùn)練效果。

百度教你三步極速蒸餾DeepSeek R1,效果媲美OpenAI o3 mini!插圖7

創(chuàng)建訓(xùn)練任務(wù)

百度教你三步極速蒸餾DeepSeek R1,效果媲美OpenAI o3 mini!插圖8

訓(xùn)練參數(shù)配置

>>第三步-效果快速評(píng)估:訓(xùn)練完成后,選擇了GSM8K、SCQ5K等多個(gè)公開數(shù)據(jù)集創(chuàng)建自動(dòng)評(píng)估任務(wù),通過ERNIE-4.0-Turbo作為裁判員模型并自定義評(píng)估指標(biāo),快速得到評(píng)估結(jié)果。

百度教你三步極速蒸餾DeepSeek R1,效果媲美OpenAI o3 mini!插圖9

創(chuàng)建自動(dòng)評(píng)估任務(wù)

百度教你三步極速蒸餾DeepSeek R1,效果媲美OpenAI o3 mini!插圖10

選擇ERNIE 4.0 Turbo作為裁判員模型

百度智能云千帆ModelBuilder始終致力于為用戶提供全流程、一站式的AI服務(wù)。除了強(qiáng)大的模型資源,還匹配了完善的一站式模型效果調(diào)優(yōu)工具鏈,包含數(shù)據(jù)處理、模型精調(diào)、模型評(píng)估、模型量化等關(guān)鍵環(huán)節(jié),助力企業(yè)根據(jù)自身業(yè)務(wù)需求深度優(yōu)化模型性能。

此外,千帆ModelBuilder具備卓越的模型推理托管能力,支持vLLM、LMDeploy、TensorRT-LLM、SGLang等各類主流推理框架,還支持模型的自定義導(dǎo)入與部署,為開發(fā)者提供了高度靈活的開發(fā)環(huán)境。

自千帆大模型平臺(tái)上線DeepSeek-R1和V3后首日即吸引超1.5萬客戶調(diào)用,平臺(tái)也會(huì)為更多諸如DeepSeek這樣的優(yōu)質(zhì)模型提供優(yōu)質(zhì)土壤,帶來增益賦能。

給TA打賞
共{{data.count}}人
人已打賞
0 條回復(fù) A文章作者 M管理員
    暫無討論,說說你的看法吧
QQ客服
  • QQ176363189 點(diǎn)擊這里給我發(fā)消息
旺旺客服
  • 速度網(wǎng)絡(luò)服務(wù)商 點(diǎn)這里給我發(fā)消息
電子郵箱
  • sudu@yunjiasu.cc
微信客服
  • suduwangluo