今日,GitHub 上一篇兼具技術(shù)深度與行業(yè)爆點(diǎn)的論文引發(fā)熱議。該研究提出的 “LLM-Fingerprint 模型指紋技術(shù)”,直指通過(guò)注意力參數(shù)分布溯源預(yù)訓(xùn)練模型的可行性。核心結(jié)論顯示:Pangu Pro MoE 模型與 Qwen-2.5 14B 模型的注意力參數(shù)分布相關(guān)性高達(dá) 0.927,這一數(shù)值遠(yuǎn)超行業(yè)內(nèi)獨(dú)立訓(xùn)練模型的正常差異范圍,引發(fā)對(duì)模型知識(shí)產(chǎn)權(quán)的激烈討論。
核心推斷:從技術(shù)數(shù)據(jù)到版權(quán)質(zhì)疑
論文作者通過(guò)實(shí)證分析提出兩大關(guān)鍵推斷:
- 技術(shù)路徑非從零構(gòu)建:Pangu Pro MoE 并非完全自研,而是通過(guò) “upcycling(持續(xù)訓(xùn)練 + 架構(gòu)調(diào)整)” 基于 Qwen 模型進(jìn)行改造,即使從 Dense 架構(gòu)轉(zhuǎn)為 MoE 架構(gòu),核心參數(shù)指紋仍保留顯著繼承特征。
- 自研聲明存疑:技術(shù)文檔中 “完全自研” 的表述與參數(shù)指紋分析結(jié)果矛盾,可能涉及版權(quán)侵權(quán)與技術(shù)報(bào)告真實(shí)性爭(zhēng)議。

模型指紋技術(shù):如何鎖定 “參數(shù)血緣”?
該技術(shù)的核心邏輯可拆解為三步:
- 特征提取:抓取模型各層多頭注意力機(jī)制中 Q、K、V、O 矩陣的標(biāo)準(zhǔn)差,按層序排列并歸一化,形成唯一的 “參數(shù)指紋序列”。
- 相關(guān)性計(jì)算:通過(guò)皮爾遜相關(guān)系數(shù)衡量不同模型的指紋序列相似度。實(shí)驗(yàn)證明,即使經(jīng)歷架構(gòu)改造(如 MoE 拆分)或大規(guī)模微調(diào),該指紋仍保持穩(wěn)定性。
- 繼承性驗(yàn)證:在已知繼承關(guān)系的模型(如 Llama 變體、Qwen 社區(qū)微調(diào)版)中,指紋相關(guān)性顯著高于獨(dú)立訓(xùn)練模型(即使同屬 Qwen 家族內(nèi)部不同型號(hào))。
爭(zhēng)議升級(jí):1 小時(shí)速答與學(xué)術(shù)交鋒
論文發(fā)布 1 小時(shí)后,涉事團(tuán)隊(duì)在 GitHub Issue 中緊急回應(yīng),全盤否認(rèn)抄襲指控,并稱 LLM-Fingerprint 的評(píng)估方法 “缺乏科學(xué)依據(jù)”。但論文作者 HostAGI 團(tuán)隊(duì)隨即在 Issue#8 中反駁,指出參數(shù)分布的高相關(guān)性已超越 “巧合” 范疇,雙方圍繞技術(shù)方法論展開(kāi)激烈辯論。
吃瓜群眾視角
當(dāng)前事件已從技術(shù)討論升級(jí)為行業(yè)倫理爭(zhēng)議。脈脈等平臺(tái)爆料顯示,事件背后或牽扯 AI 實(shí)驗(yàn)室的人事博弈。正如網(wǎng)友調(diào)侃:”到底是自研還是換皮,就看 Pangu 能否拿出推翻 0.927 相關(guān)性的硬證據(jù)。” 目前,技術(shù)圈正等待涉事方進(jìn)一步舉證,讓子彈再飛一會(huì)兒。