近日,云從科技從容大模型在多模態(tài)方面取得重要進(jìn)展,商品基礎(chǔ)大模型在MUGE、Product1M 兩個規(guī)模最大的開源中文多模態(tài)商品檢索數(shù)據(jù)集上從百度、快手、京東和OPPO等多家知名高校、企業(yè)與研究機構(gòu)脫穎而出,刷新了世界紀(jì)錄。
目前,云從商品基礎(chǔ)大模型在Product1M數(shù)據(jù)集上Top10的平均精度均值(Mean Average Precision,mAP)達(dá)到87.68%,比此前最好成績(State Of The Art,SOTA)高出2%。
Table 1.從容多模態(tài)大模型在Product1M上的表現(xiàn)
在MUGE電商圖文檢索任務(wù)上的平均查全率(meanRecall)達(dá)到90.77%,比此前最好成績高出0.76%,模型僅基于平均長度為5的查詢文本對商品圖片進(jìn)行檢索召回。
Table 2. 從容多模態(tài)大模型在MUGE-Retrieval上的表現(xiàn)
技術(shù)行業(yè)領(lǐng)先 無需標(biāo)注即可高效訓(xùn)練
現(xiàn)有多模態(tài)圖文預(yù)訓(xùn)練方案的訓(xùn)練數(shù)據(jù)主要為圖文對數(shù)據(jù),但真實場景中的多模態(tài)數(shù)據(jù)不僅限于簡單的圖文對,更有多維度的信息來源,即多源信息。以商品搜索場景為例,多源信息就包括文本模態(tài)(搜索輸入、場景文字、文本標(biāo)題、類目標(biāo)簽)、視覺模態(tài)(商品圖、同款標(biāo)簽)的多維多模態(tài)信息。多源蘊含豐富的語義關(guān)聯(lián),具有極大的挖掘利用潛力與應(yīng)用價值。但是,多源商品信息通常存在模態(tài)信息缺失的問題,是多源信息模態(tài)建模應(yīng)用面臨的重要挑戰(zhàn)。
通用多模態(tài)大模型的出現(xiàn)讓大家看到多模態(tài)大模型強大的理解能力和對任意場景的泛化能力。云從科技通過大量商品數(shù)據(jù)的積累和海量互聯(lián)網(wǎng)商品數(shù)據(jù)的整合,搭建起10億級別庫商品數(shù)的大規(guī)模商品數(shù)據(jù)集。
基于大規(guī)模商品數(shù)據(jù)集,利用對比學(xué)習(xí)和自監(jiān)督學(xué)習(xí)范式,云從科技提出支持商品文本模態(tài)(類別標(biāo)簽、屬性標(biāo)簽、搜索描述)和視覺模態(tài)(高清商品圖、購物商品圖)的商品多模態(tài)大模型,實現(xiàn)多種模態(tài)的對齊和商品的多模態(tài)表征,既擁有零售復(fù)雜場景下對相似商品的細(xì)粒度區(qū)分能力,也擁有推薦場景下以圖搜文或者以文搜圖的檢索能力。
針對具體的業(yè)務(wù)應(yīng)用,云從商品大模型在不使用對應(yīng)場景真實數(shù)據(jù)的情況下也能有較好的商品識別能力,只需使用少量標(biāo)注或無標(biāo)注數(shù)據(jù),就能高效實現(xiàn)下游商品視覺檢索、細(xì)粒度識別、多模態(tài)檢索,對產(chǎn)品預(yù)研和任務(wù)遷移十分友好,有助于項目快速迭代。
效率優(yōu)勢明顯 從容大模型廣泛落地
數(shù)據(jù)顯示,我國無人零售市場規(guī)模年均復(fù)合增長率為31.23%。商品作為零售市場主體,以商品為中心的感知任務(wù),一直是人工智能算法落地的研究熱點。基于互聯(lián)網(wǎng)上海量的商品圖文信息和實際生產(chǎn)環(huán)境大量的商品數(shù)據(jù),云從科技研發(fā)以商品為中心的多模態(tài)預(yù)訓(xùn)練大模型,專注于商品相關(guān)的各類下游任務(wù),實踐和貫徹“人機協(xié)同”理念。
通過對零售行業(yè)全流程的深入調(diào)研,云從科技利用商品基礎(chǔ)大模型對零售行業(yè)全流程進(jìn)行智能升級,提供滿足不同職責(zé)和場景的AI店員。
例如,云從科技近年來在智能零售領(lǐng)域提出的智能貨柜綜合解決方案,一方面,在商品管理上全方位幫助企業(yè)實現(xiàn)了運營效率的提升和服務(wù)質(zhì)量的整體優(yōu)化;另一方面,利用動態(tài)視覺商品識別算法技術(shù),對消費者購買過程視頻進(jìn)行分析,整體達(dá)到99.48%的綜合識別準(zhǔn)確率,同時可以將購物時間縮短50倍,通過秒級識別實時返回購買結(jié)果,實現(xiàn)“即拿即走,自動結(jié)算”的智能購物流程,極大提升消費者的購物體驗。