中文字幕av在线播放_国产久一_波多野结衣视频在线播放_日韩人妻精品无码一区二区三区_四虎影院免费看_波多野结衣爽到高潮大喷

直指端側(cè)痛點(diǎn) 豆包向推理算力又“砍了一刀”:新模型架構(gòu)最高降本83%

《科創(chuàng)板日報(bào)》2月12日訊(編輯 宋子喬)?豆包概念股午后大幅走強(qiáng),漢得信息一度拉升封板,廣和通、移遠(yuǎn)通信、潤欣科技、博通集成等紛紛大幅沖高。

image

消息面上,據(jù)豆包大模型團(tuán)隊(duì)消息,字節(jié)跳動豆包大模型Foundation團(tuán)隊(duì)近期提出一種全新的稀疏模型架構(gòu)——UltraMem,該架構(gòu)在保證模型效果的前提下,推理速度較傳統(tǒng)的MoE架構(gòu)提升2-6倍,推理成本最高可降低83%。

這項(xiàng)創(chuàng)新成果已被機(jī)器學(xué)習(xí)和AI領(lǐng)域的頂級會議ICLR 2025接收,為解決大模型推理效率和擴(kuò)展能力問題提供了全新思路。

image

直指大模型推理場景中的痛點(diǎn)

大模型的推理能力對應(yīng)的是端側(cè)AI應(yīng)用/工具的響應(yīng)能力和速度。隨著模型規(guī)模的擴(kuò)大,推理成本和訪存效率已成為限制大模型規(guī)模應(yīng)用的關(guān)鍵瓶頸。

在Transformer架構(gòu)下,模型的性能與其參數(shù)數(shù)量和計(jì)算復(fù)雜度呈對數(shù)關(guān)系。隨著LLM規(guī)模不斷增大,推理成本會急劇增加,速度變慢。

為了解決計(jì)算問題,先前的研究者提出了MoE和PKM(Product Key Memory)方案,但它們都有各自的局限性:

MoE架構(gòu)犧牲了效率:MoE架構(gòu)成功將計(jì)算和參數(shù)解耦,通過稀疏激活專家的方式,在訓(xùn)練階段有效減少了計(jì)算量,但在推理時,由于模型在推理時只能一個字一個字的生成,batch size(批量大小)和sequence length(序列長度)通常較小,少量的token即可激活幾乎所有的專家,進(jìn)而導(dǎo)致訪存急劇上升,進(jìn)而使推理延遲大幅增加。

PKM架構(gòu)犧牲了效果:PKM架構(gòu)通過引入“行路由”和“列路由”機(jī)制,這種方法讓每個token在推理時僅僅只激活極少數(shù)的value(與提示模板中的內(nèi)容相關(guān)聯(lián)的數(shù)據(jù)或信息),所以推理時不會遇到訪存瓶頸,但其效果很差,且擴(kuò)展能力有限,難以應(yīng)對更大規(guī)模的模型需求。

這些局限性使得MoE和PKM在推理效率、模型效果和擴(kuò)展能力等方面的優(yōu)化空間仍需進(jìn)一步探索。UltraMem正是為了解決上述痛點(diǎn)。

據(jù)介紹,UltraMem參考了PKM的設(shè)計(jì),但針對PKM的缺陷予以補(bǔ)充,以實(shí)現(xiàn)更高效的訪存、更優(yōu)質(zhì)的檢索,同時,降低了顯存和部署成本,其優(yōu)勢主要在于:

降低推理成本:與傳統(tǒng)的MoE架構(gòu)相比,UltraMem在推理成本上實(shí)現(xiàn)了最高83%的降低,這對于大規(guī)模模型的部署和運(yùn)行具有重要意義。

提升推理速度:UltraMem的推理速度相比MoE架構(gòu)提升了2-6倍,這使得模型在處理大規(guī)模數(shù)據(jù)時更加高效。

保持模型效果:在降低推理成本和提升推理速度的同時,UltraMem還保持了模型的效果,確保了模型的準(zhǔn)確性和可靠性。

豆包研究團(tuán)隊(duì)在151M、680M、1.6B三個不同規(guī)模的模型上進(jìn)行了廣泛的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,UltraMem在模型效果和推理速度方面均優(yōu)于MoE和PKM架構(gòu),且在680M、1.6B上具有顯著的效果優(yōu)勢。

image

image

無論是訓(xùn)練端還是推理端,當(dāng)大模型廠商卷起成本,意味著AI應(yīng)用將在未來更加高效、易用。

推理成本大幅降低,將助推AI技術(shù)在更多領(lǐng)域的應(yīng)用成為可能,尤其是對于資源受限的場景,如邊緣計(jì)算和移動設(shè)備等,能讓更多企業(yè)和開發(fā)者有能力使用和部署AI模型。

對于用戶而言,UltraMem架構(gòu)的突破、推理速度的提升可使AI應(yīng)用如智能助手、自然語言處理等在實(shí)時應(yīng)用中響應(yīng)更迅速,交互更流暢,優(yōu)化用戶的使用體驗(yàn),提高內(nèi)容創(chuàng)作、日常辦公等場景下的效率。


AI財(cái)評
字節(jié)跳動豆包大模型團(tuán)隊(duì)提出的UltraMem架構(gòu),通過創(chuàng)新的稀疏模型設(shè)計(jì),顯著提升了AI大模型的推理效率和成本效益。這一技術(shù)突破不僅降低了高達(dá)83%的推理成本,還提升了2-6倍的推理速度,為大模型的廣泛應(yīng)用鋪平了道路。從財(cái)經(jīng)角度看,這種成本效益的提升將加速AI技術(shù)在邊緣計(jì)算和移動設(shè)備等資源受限場景的部署,推動AI應(yīng)用的普及和商業(yè)化進(jìn)程。同時,推理速度的提升也將增強(qiáng)用戶體驗(yàn),促進(jìn)AI助手和自然語言處理等實(shí)時應(yīng)用的發(fā)展,為相關(guān)企業(yè)帶來新的增長點(diǎn)。總體而言,UltraMem架構(gòu)的推出,預(yù)示著AI技術(shù)成本的進(jìn)一步降低和效率的提升,將對整個AI產(chǎn)業(yè)鏈產(chǎn)生深遠(yuǎn)影響,值得投資者密切關(guān)注。
注:本文轉(zhuǎn)載自科創(chuàng)板日報(bào),轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)。如有侵權(quán)行為,請聯(lián)系我們,我們會及時刪除。
主站蜘蛛池模板: 无码专区久久综合久中文字幕 | 岛国AV动作片在线观看 | 免费观看老外一级毛片视频 | 亚洲一区二区三区av激情 | 美女啪啪网站又黄又免费 | 一本大道久久a久久精二佰 亚洲AV色香蕉一区二区蜜桃 | 又色又爽又黄18禁美女裸身无遮挡 | 在线一级成人 | www色视频 | 18成人片黄网站WWW | 国产日产久久高清欧美一区 | 武侠古典av | 色AV综合AV综合无码网站 | 国产日韩欧美精品 | 麻豆果传媒成人A片免费看 人人色视频 | 制服丝袜一区二区三区 | 成人亚洲欧美丁香在线观看 | 未满十八岁勿入网站WWW | 国产真实乱对白精彩久久 | 亚洲欧美日韩国产国产A | 极品美女大尺度私房写真 | 久久涩涩 | 色香欲综合成人免费视频 | 亚洲精品字幕在线观看 | 欧美激情精品 | 国产精品自在线拍国产手青青机版 | 亚洲A无码综合A国产AV中文 | 成人午夜福利院在线观看 | 精品视频在线观自拍自拍 | 亚洲国产精品无码久久久高潮 | 邻居少妇太爽了A片在线观看动漫 | 免费无码又爽又刺激a片 | 日产精品卡二卡三卡四卡区满十八 | 免费看一区二区成人a片 | 亚洲午夜无码片在线观看影院百度 | 最新国产久免费视频在线观看 | 区二三区四区精华日产一线二线三 | 国产网友愉拍精品视频手机 | 久久久久亚洲AV无码麻豆 | 国产成人免费无码AV在线播放 | www黄色片网站|