出品|51CTO技術棧(微信號:blog51cto)
昨天科技圈社區HackerNews突然出現一則消息,矛頭直指不久前發布的大模型Yi-34B,認為其除了兩個張量被重新命名外,完全使用了Llama的架構。
今年3月,李開復在朋友圈發英雄帖,官宣組建零一萬物團隊。僅僅7個月后,零一萬物就發布了開源中英雙語大模型“Yi”。據有關資料顯示,在獲得創新工場、阿里云和其他未披露投資者的融資后,零一萬物的估值已超過10億美元。
更令人矚目的是,據零一萬物官方介紹,Yi-34B不僅以黑馬之姿取得了多項SOTA國際最佳性能指標認可,而且成為了迄今為止唯一成功登頂HuggingFace全球開源模型排行榜的國產模型。
因此,無論是圈內還是圈外,都在關注:“Yi”如何面對這一質疑,后續會有何回應。
事件的肇因是一篇發布于HuggingFace的帖子。
一位署名為ehartford的開發者于9天前在社區留言。他首先指出,據其了解,Yi使用的正是Llama的架構,除了重新命名了兩個張量(input_layernorm,post_attention_layernorm)。
更重要的是,由于圍繞Llama架構有大量的投資和工具,因此對張量使用相同的名稱是有價值的。因此他希望,在該模型獲得大量采用之前,開源社區重新發布Yi,并“重新命名張量,以便有一個符合Llama架構的版本”。??
下面有跟帖的開發者也指出:如果他們確實采用了MetaLlaMA結構、其代碼庫和所有相關資源,就需要遵守LLaMA規定的許可協議。要求以LlaMA形式正式發布Yi模型是有問題的,因為它破壞了Yi許可條款的可執行性。
隨后又有熱心網友挖出了前阿里VP賈揚清在朋友圈發的一張圖,直言某國產大模型實際上是抄襲的LlaMA,為表示不一樣就更換了幾個變量名。甚至還犀利諷刺道:如果是開源的模型架構,就不要改名字了,“免得我們還做一堆工作就為了適配你們改名字”。雖然賈揚清沒有指名道姓,但有留意此事的人不免“對號入座”。?????????
對于此番爭議,零一萬物隨后給出了自身的回應。
就在昨天,其團隊開源總監RichardLin在HuggingFace社區原貼之下指出“命名問題是團隊的疏忽,在大量訓練實驗中,我們對代碼進行了多次重命名以滿足實驗要求。但在發布正式版本之前,我們沒能將它們切換回來。對此我們深感抱歉,由此造成的混亂我們也深表歉意”。
RichardLin向原貼主承認修改張量名稱的做法不妥,“您對張量名稱的看法是正確的,我們將按照您的建議將其從Yi重命名為Llama。我們也非常重視以準確、透明的方式完成工作。”
與此同時,他也給出了解決方案:要么邀請這名發現問題的開發者提交一條包含這些變更的拉取請求,要么由他們團隊處理更新按要求操作并在同一個repo中發布新版本,從而完成對Yi的張量名稱進行重命名以符合Llama架構。
最后RichardLin重申,他們會努力改進工作流程,確保不會再次發生類似的失誤,“接下來我們將再次檢查所有代碼,確保其余部分準確無誤”。
有人說,LLaMa本就是開源的模型,使用LLaMa的架構是正常的大模型訓練步驟。而且國內已發布的開源模型也絕大多數采用漸成行業標準的GPT/LLaMA的架構。要訓練出好的模型,除了架構之外,更需要好的訓練數據和對訓練方法和具體參數的精準把控。??
正如零一萬物在今天下午發布的公告所表達的:大模型持續發展與尋求突破口的核心點不僅在于架構,而是在于訓練得到的參數。
全文核心觀點可總結如下:
其實這不是本土大模型首次被質疑“套殼”。
不久前,外界對百川智能開源模型Baichuan-7B同樣提出了是否套殼LLaMa的質疑。彼時,王小川表示,搜索公司干了20年,團隊對語言數據有深入的理解,知道取得高質量語料的渠道,模型迭代速度很快,“國內開源模型的能力目前已經可以達到LLaMa”。
那么到底什么是套殼,什么又是合理利用既有開源成果?眾所周知,固然選擇同一種架構,用不同數據集訓練出來的模型也會有所差別。不過,Yi此次引發的爭議的焦點在于其對于開源模型架構的“魔改”命名。所以回歸事件本身,實質還是一個“用了你的成果,卻換了你的牌子”的故事。
當Yi-34B剛發布時,李開復在接受外媒TechCrunch采訪時曾說,引入開源LLM作為零一萬物首個產品的決定是“回饋”社會的一種方式。對于那些覺得LlaMA對他們來說是“天賜之物”的人來說,“我們提供了一個令人信服的選擇”。如今看來,到底能不能讓人信服,還是要留待時間的檢驗了。
北京市海淀區中關村南1條甲1號ECO中科愛克大廈6-7層
北京市公安局海淀分局備案編號:110108002980號營業執照
本文地址:http://www.schoolwires.net.cn/article-410.html
上一篇:解析算網一體化調度和算力度量...
下一篇:如何在部署中實施實時監控...