MME-CoT:專為評估大型多模態(tài)模型CoT推理能力的基準(zhǔn)測試。涵蓋了數(shù)學(xué)、科學(xué)、OCR、邏輯、時空和一般場景6個領(lǐng)域
隨著LLMs的快速發(fā)展,其在推理能力方面的表現(xiàn)引起了廣泛關(guān)注。近年來,CoT作為一種有效的推理方法,在LLMs中取得了顯著成果。然而,對于LMMs而言,CoT推理的影響和效果仍缺乏系統(tǒng)評估。LMMs結(jié)合了語言和視覺信息處理能力,在圖像識別、視頻理解等視覺任務(wù)中表現(xiàn)出色,但其在多模態(tài)推理任務(wù)中的表現(xiàn)尚
s1K 數(shù)據(jù)集:是一個用于提升語言模型推理能力的高質(zhì)量數(shù)據(jù)集。包含 1,000 個問題,每個問題都配有詳細的 推理路徑 和 答案。
近年來,語言模型(LMs)在大規(guī)模預(yù)訓(xùn)練的基礎(chǔ)上取得了顯著進展,其性能提升主要依賴于訓(xùn)練時計算資源的增加。然而,隨著模型規(guī)模的不斷擴大,訓(xùn)練成本也急劇上升。為了在有限的資源下進一步提升模型性能,研究者們開始探索一種新的范式——測試時擴展(test-time scaling),即在推理階段增加計算資源
UniScene:以占用為中心的統(tǒng)一駕駛場景生成
生成高保真、可控和帶注釋的訓(xùn)練數(shù)據(jù)對于自動駕駛至關(guān)重要。現(xiàn)有方法通常直接從粗略的場景布局生成單一數(shù)據(jù)形式,這不僅無法輸出各種下游任務(wù)所需的豐富數(shù)據(jù)形式,而且難以建模直接的布局到數(shù)據(jù)分布。UniScene 是一個用于生成駕駛場景中三種關(guān)鍵數(shù)據(jù)形式(語義占用、視頻和激光雷達)的統(tǒng)一框架。UniScene
Omni-Scene:以自我為中心稀疏視圖場景重建的全高斯表征
本文對不同的表征進行深入分析,并引入**全高斯(Omni-Gaussian)**表征和定制的網(wǎng)絡(luò)設(shè)計來補充它們的優(yōu)勢并彌補缺點。實驗表明,該方法在以自我為中心重建方面明顯優(yōu)于 pixelSplat 和 MVSplat,并且在以場景為中心的重建方面取得了與先前研究相當(dāng)?shù)男阅堋4送猓脭U散模型擴展該方
-
共1頁 4條
