2月28日,國(guó)內(nèi)AI領(lǐng)域先鋒DeepSeek在其“開(kāi)源周”壓軸日宣布,正式開(kāi)源3FS(Fire-Flyer File System)高性能并行文件系統(tǒng)及配套數(shù)據(jù)處理框架Smallpond。這一組合劍指AI時(shí)代海量數(shù)據(jù)處理的效率瓶頸,憑借突破性的吞吐性能與去中心化架構(gòu)設(shè)計(jì),為深度學(xué)習(xí)訓(xùn)練、推理等場(chǎng)景提供了全新的基礎(chǔ)設(shè)施支持。
3FS:重新定義分布式存儲(chǔ)性能極限
作為專(zhuān)為現(xiàn)代SSD硬件與RDMA高速網(wǎng)絡(luò)量身打造的文件系統(tǒng),3FS通過(guò)創(chuàng)新的并行架構(gòu)設(shè)計(jì),徹底釋放硬件潛能。其核心亮點(diǎn)在于:
- 集群吞吐登頂:在180節(jié)點(diǎn)規(guī)模的測(cè)試集群中,3FS實(shí)現(xiàn)了6.6 TiB/s的聚合讀取吞吐,相當(dāng)于每秒傳輸逾14部4K藍(lán)光電影。
- 基準(zhǔn)測(cè)試橫掃:以25節(jié)點(diǎn)完成GraySort基準(zhǔn)測(cè)試時(shí),以3.66 TiB/分鐘的成績(jī)刷新效能標(biāo)桿,展現(xiàn)極速排序與數(shù)據(jù)搬運(yùn)能力。
- 單節(jié)點(diǎn)爆發(fā)力:?jiǎn)蝹€(gè)客戶(hù)端節(jié)點(diǎn)的KVCache查詢(xún)峰值突破40 GiB/s,滿(mǎn)足高并發(fā)實(shí)時(shí)需求。
- 架構(gòu)革命:采用無(wú)中心節(jié)點(diǎn)的分布式設(shè)計(jì),同時(shí)確保強(qiáng)一致性語(yǔ)義,兼顧性能與數(shù)據(jù)可靠性。
穿透AI工作流全場(chǎng)景,化解數(shù)據(jù)“卡脖子”難題
3FS并非實(shí)驗(yàn)室技術(shù),而是直接服務(wù)于DeepSeek自身大模型訓(xùn)練體系(如V3/R1版本),覆蓋AI數(shù)據(jù)生命周期的關(guān)鍵環(huán)節(jié):
- 訓(xùn)練前:加速TB級(jí)數(shù)據(jù)預(yù)處理與分布式加載,縮短模型迭代周期。
- 訓(xùn)練中:實(shí)現(xiàn)分鐘級(jí)千卡集群檢查點(diǎn)保存/恢復(fù),規(guī)避訓(xùn)練中斷風(fēng)險(xiǎn)。
- 推理時(shí):支撐毫秒級(jí)向量檢索與KVCache查詢(xún),保障低延遲響應(yīng)。
- 長(zhǎng)期運(yùn)維:提供PB級(jí)模型參數(shù)的高效版本管理,簡(jiǎn)化生產(chǎn)部署。
Smallpond:輕量級(jí)數(shù)據(jù)處理的“渦輪引擎”
同步開(kāi)源的Smallpond框架,將3FS與DuckDB分析引擎深度融合,打造“即時(shí)可用”的數(shù)據(jù)處理方案:
- 零服務(wù)依賴(lài):無(wú)需常駐后臺(tái)進(jìn)程,按需啟動(dòng)釋放資源。
- PB級(jí)擴(kuò)展:依托3FS分布式存儲(chǔ),輕松應(yīng)對(duì)超大規(guī)模數(shù)據(jù)集。
- SQL友好:內(nèi)置DuckDB支持標(biāo)準(zhǔn)查詢(xún)語(yǔ)言,降低開(kāi)發(fā)門(mén)檻。
開(kāi)源生態(tài)雙星閃耀
3FS與Smallpond已全面開(kāi)放源代碼,開(kāi)發(fā)者可通過(guò)以下鏈接深入探索:
- 3FS項(xiàng)目地址:https://github.com/deepseek-ai/3FS
- Smallpond框架地址:https://github.com/deepseek-ai/smallpond
此次開(kāi)源標(biāo)志著DeepSeek“開(kāi)源周”計(jì)劃的圓滿(mǎn)收官,也預(yù)示著AI基礎(chǔ)設(shè)施領(lǐng)域或?qū)⒂瓉?lái)新一輪性能革新。隨著算力競(jìng)爭(zhēng)進(jìn)入白熱化,突破存儲(chǔ)瓶頸的3FS能否成為國(guó)產(chǎn)大模型訓(xùn)練的“隱形引擎”?業(yè)界正拭目以待。