3月18日,昆侖萬維正式開源首款工業(yè)界多模態(tài)思維鏈推理模型Skywork R1V,即日起開源模型權(quán)重和技術(shù)報告。
繼OpenAI o1和DeepSeek-R1在全球掀起長思考模型熱潮后,大模型進(jìn)入新技術(shù)范式。昆侖萬維積極貢獻(xiàn)開源社區(qū),正式開源Skywork R1V多模態(tài)視覺推理模型,成為中國第一個開源“多模態(tài)推理模型”的企業(yè)。
據(jù)介紹,視覺推理模型是一類能夠解決需要思維鏈(Chain-of-Thought)的視覺任務(wù)的模型,通過對視覺信息進(jìn)行多步邏輯推理與分析,逐步推導(dǎo)出最終結(jié)果。這種模型不僅關(guān)注圖像內(nèi)容的識別與理解,更強(qiáng)調(diào)通過層層遞進(jìn)的推理路徑,實(shí)現(xiàn)復(fù)雜視覺問題的精準(zhǔn)求解,例如視覺邏輯推理、視覺數(shù)學(xué)問題、圖像中的科學(xué)現(xiàn)象分析、醫(yī)學(xué)影像的診斷推理等,從而有效拓展了視覺大模型的應(yīng)用邊界。
無論是日常繁瑣的工作任務(wù)、復(fù)雜的數(shù)據(jù)分析、難以解答的學(xué)術(shù)問題,還是前所未見的陌生場景,都可以交給Skywork R1V進(jìn)行高效處理。
在Reasoning推理能力方面,Skywork R1V實(shí)現(xiàn)了模型的頂尖邏輯推理與數(shù)學(xué)分析能力。在權(quán)威的MATH500和AIME基準(zhǔn)測試中,Skywork R1V分別取得了94.0和72.0的高分,在純文本復(fù)雜推理任務(wù)中展現(xiàn)出卓越性能,使其在邏輯推理和數(shù)學(xué)問題求解領(lǐng)域展現(xiàn)出人類專家級別的水準(zhǔn)。
在Vision視覺理解能力方面,Skywork R1V成功地將其強(qiáng)大的文本推理與思維鏈推導(dǎo)能力高效遷移到視覺任務(wù)中。憑借創(chuàng)新的跨模態(tài)遷移技術(shù)與推理優(yōu)化框架,Skywork R1V能夠高效解決需要多步視覺推理的問題,在MMMU與MathVista等視覺推理基準(zhǔn)中分別取得了69和67.5的優(yōu)異成績。
基于R1V模型,Skywork團(tuán)隊設(shè)計了一種靈活在R1V中擴(kuò)展語音理解模態(tài)的方式,從而實(shí)現(xiàn)一個全模態(tài)思考大模型,該在單個模型中同時實(shí)現(xiàn)圖像、視頻、語音的全模態(tài)理解能力,并在語音和視覺理解評測中斬獲多項SOTA成績。未來公司將陸續(xù)公布測評成績、開源全模態(tài)思考大模型。
2023年10月以來,昆侖萬維陸續(xù)開源了百億級大語言模型“天工”Skywork-13B系列、數(shù)字智能體全流程研發(fā)工具包AgentStudio、4000億參數(shù)MoE超級模型、2千億稀疏大模型Skywork-MoE、推理模型Skywork-o1-Open等。2025年2月18日,昆侖萬維同時將SOTA級別的SkyReels-V1和SkyReels-A1進(jìn)行開源。
在語言生成模型、AI Agent、推理模型、視頻生成模型等相繼開源、多點(diǎn)開花之后,公司正式開源Skywork R1V多模態(tài)推理模型,在文本-視覺多模態(tài)推理方向再下一城,成為中國第一家開源多模態(tài)思考模型的企業(yè)。昆侖萬維表示,未來將持續(xù)開源優(yōu)秀的模型、數(shù)據(jù)集等,共建開發(fā)者生態(tài)、加速技術(shù)創(chuàng)新、降低應(yīng)用門檻、推動技術(shù)平權(quán)和AI行業(yè)發(fā)展。(燕云)
校對:冉燕青