最新国产精品鲁鲁免费视频,A∨无码一区二区,免费AV无码久久一本通,99精品视频九九精品,99热在线都是精品,国产精品亲子乱子伦XXXX裸,亚洲色无码中文字幕伊人,99re6久久免费观看,无码精品久久久久一区二区,日本高清乱理伦片中文字幕

悟空收錄網

微軟戰略大轉變:擁抱小模型!


文章編號:389 / 更新時間:2023-11-30 18:00:10 / 瀏覽:

出品|51CTO技術棧(微信號:blog51cto)

微軟的生成式AI戰略似乎出現了180度大轉變:相比大模型,小模型才是微軟的真愛。

在Ignite2023上,微軟董事長兼首席執行官Nadella在主題演講中表示:“微軟喜歡小模型(SLM)”,并宣布了名為Phi-2的Phi小型語言模型(SLM)系列的最新迭代。

Nadella表示,這款由微軟研究部在高度專業化的數據集上開發的Phi-2,可以與150倍大的模型相媲美。

重要的是,許多企業伙伴也認為如此,他們認為與大型語言模型(LLM)相比,較小的模型對企業更有用。

今年早些時候,除了發布Phi和Phi1.5,微軟還發布了Ocra,這是一個基于Vicuna的130億參數的開源模型,可以模仿和學習GPT-4大小的LLM。?

今年,6月,微軟發布了一篇題為《TextbooksAreAllYouNeed》的論文,用規模僅為7Btoken的「教科書質量」數據訓練了一個1.3B參數的模型——Phi-1。盡管在數據集和模型大小方面比競品模型小幾個數量級,但phi-1在HumanEval的pass@1上達到了50.6%的準確率,在MBPP上達到了55.5%。

Phi-1證明高質量的「小數據」能夠讓模型具備良好的性能。9月,微軟又發表了論文《TextbooksAreAllYouNeedII:phi-1.5technicalreport》,對高質量「小數據」的潛力做了進一步研究。Phi-1.5的架構與phi-1完全相同,有24層,上下文長度為2048,實驗結果顯示,對于語言理解任務,在多個數據集(包括PIQA、Hellaswag、OpenbookQA、SQUAD和MMLU)上,Phi-1.5的性能可以媲美5倍大的模型,甚至在在更復雜的推理任務(例如小學數學和基礎編碼任務)上Phi-1.5還超越了大多數LLM,以至于人們開始質疑該模型是不是用了測試集來訓練。

圖片

據微軟官網介紹,Phi-2是一款具有27億參數的Transformer,與Phi-1-5相比,它在推理能力和安全措施方面有了顯著改進,與常識、語言理解和邏輯推理等基準測試參數相比,表現出了最先進的性能。

與行業中的其他Transformer相比,它體積更輕更小。通過正確的微調和定制,這些小模型對于云和邊緣應用程序來說都是非常強大的工具。?

在過去一年左右的時間里,大模型吸引了全球的注意力,從GPT3.5、GPT-4、PaLM-2到Falcon和LLaMA等開源模型。然而,種種跡象表明,小模型如今越來越受到重視。

首先,當Meta發布LLaMA時,它有四種變體——70億、130億、330億和650億,至少在某種意義上預示著小模型的發展。它促使人們認識到,參數較少的小型模型可以表現得令人欽佩。

如今微軟公開表示“喜歡”小模型,更是佐證了這一趨勢。

考慮到LLM的訓練成本高昂,這是采用LLM的主要障礙之一。與GPT-3.5和GPT-4相比,較小的型號顯著節省了成本。LLaMA2有三種變體——70億、130億和700億——生成段落摘要的費用大約是GPT-4的30倍,同時保持了同等的準確性。較小的模型不僅具有成本效益,而且在準確性方面也很出色。與在龐大多樣的數據集上訓練的大型模型不同,小型模型專注于根據特定業務用例量身定制的經過仔細審查的數據,以確保準確性和相關性。

圖片

Llama2在許多外部基準測試上都優于其他開源語言模型,包括推理、編碼、熟練程度和知識測試。

HuggingFace首席執行官ClemDelangue預測:“大多數公司都會意識到,更小、更便宜、更專業的模型對99%的人工智能用例更有意義。”OpenAI的首席執行官SamAltman也表達了這種觀點。

在麻省理工學院的一次討論中,Altman設想了一個參數數量減少的未來,一組較小的模型優于較大的模型。微軟在開發小型機型方面的努力強調了他們對小模型未來將為企業帶來重大利益的信念。?

對于B端市場而言,之前在《企業版ChatGPT,基本涼了!》一文中就提到了,大模型很難解決的問題:如何保護企業的私有數據不被泄露和利用,讓企業的核心數據資產暴露給通用大模型基本上是不可能的。

這有就意味著基于公有云的大模型很難在短時間內取得企業的信任。即便大家一致認為,生成式AI在提升決策、創新和運營效率方面起著越來越重要的作用,但如果存在著把數字命脈交出去的可能性,顯然也是不妥的。

比如,最近大火的大模型開源調度框架、估值超過2億美元Langchain機制,就展示了這種威脅。在Langchain機制的第3、4步中,其先將問題和相關本地數據資產打包形成Prompt,然后再將Prompt通過API傳給遠程的大模型以獲取答案。在傳輸的過程中和上傳的大模型后,企業的數據資產都存在泄露的可能性。

圖片

這樣看來,出于數據安全和隱私的考慮,一個本地化的大模型方案似乎是必然的。但是,企業客戶能否負擔得起私有的通用大模型?高昂的成本和算力的封禁政策,都是不太可能短期解決的。

所以小模型似乎成了一種更實用的企業版方案,小模型的定制成本或許依然不菲,但對于取得獲得收益而言,是可負擔的。

在Ignite2023期間,Nadella還推出了“模型即服務(MaaS)”產品,為企業提供了在HuggingFace等平臺上訪問各種開源模型的機會,包括Mistral和Llama2的模型。

圖片

此外,AzureAI目錄中的企業也可以使用Phi-2,它也可以被視為LLaMA系列模型的競爭者。今年早些時候,微軟已經聲稱,擁有13億參數的Phi-1.5在幾個基準上優于LlaMA2的70億參數模型。

當Llama向公眾發布時,它既沒有人的反饋強化學習(RLHF),也沒有指導或對話調整。然而,它的開源性質在社區內引發了高度熱情,導致了一系列變體,包括指令調整、人工評估、多模態、RLHF等。它使Llama成為最受歡迎的型號之一。現在,微軟可以用Phi-2來復制或超越Llama的成功。

微軟研究院ML基金會團隊負責人SebastienBubeck表示,Phi-2是需要微調的完美模型。希望利用生成人工智能模型的小企業或初創公司可能會發現這是有益的。

Predelo數據科學副總裁MarkTenenholtz表示:“我相信,有很多小型人工智能產品使用了像Llama這樣的非商業LLM。Phi-2將取代所有這些。”

在主題演講中,Nadella演講中表示:“Phi-2是開源的,很快就會出現在微軟的服務模式目錄中。”然而,快速瀏覽許可證就會發現,該模型目前僅用于研究目的。許多X(以前的Twitter)用戶也指出了同樣的觀點。

圖片

“開源僅用于研究目的”這話是不是很熟悉,讓人想起早期的Llama版本。今年2月,Meta在非商業許可下與研究界分享了Llama的模型權重。然而,它后來在4Chan上以可接近的重量出現,無意中使其可用于商業用途。

如果微軟希望用Phi-2復制Llama的成功,它需要使該模型可用于商業用途。此外,隨著時間的推移,“開源”的這個詞也面臨新的審視。盡管像LLaMA這樣的模型被吹捧為開源,但一些人認為它們并不真正符合開源的定義,因為Meta沒有披露他們訓練中使用的數據集。

所以,這也許正是小模型在商業化前,一場“沖鋒”的號角。

北京市海淀區中關村南1條甲1號ECO中科愛克大廈6-7層

北京市公安局海淀分局備案編號:110108002980號營業執照

我關注的話題
相關標簽: 微軟開源模型

本文地址:http://www.schoolwires.net.cn/article-389.html

上一篇:滴滴致歉公布事故原因底層軟件出故障,補償方...
下一篇:開源項目資深大佬被冒犯到停止維護代碼,讓它...

發表評論

溫馨提示

做上本站友情鏈接,在您站上點擊一次,即可自動收錄并自動排在本站第一位!
<a href="http://www.schoolwires.net.cn/" target="_blank">悟空收錄網</a>