欧美福利片在线观看_国产下药迷倒白嫩美女96_尤物国产区精品视频_做受ⅩXXX高潮欧美_亚洲一卡二卡三卡区_黄色电影禁止18国产_奇米狠狠爱亚洲综合_黄片樱桃视频免费播放器

登錄 | 注冊 退出
  • 基于需求驅(qū)動的自動駕駛感知任務(wù)數(shù)據(jù)集缺口識別與緩解方法

    本文重點研究模型存在認(rèn)知不確定性的缺口,將其定義為數(shù)據(jù)集覆蓋缺口。

    專欄作者 645 2025-10-29

  • 仿生 Transformer 新突破:基于錐體神經(jīng)元雙輸入機(jī)制的三元推理循環(huán)模型

    本文聚焦斯特靈大學(xué) Ahsan Adeel 團(tuán)隊開發(fā)的仿生 Transformer 架構(gòu),揭示其如何通過模擬新皮質(zhì)錐體神經(jīng)元的雙輸入機(jī)制(RF1/CF2)與三元推理循環(huán)(Q-K-V 調(diào)制),實現(xiàn)高級感知處理與想象狀態(tài)的 AI 建模。研究提出的 Co4 機(jī)制通過預(yù)選擇注意力焦點,將計算復(fù)雜度降至 O

    ferchie 886 2025-05-30

  • 基于視覺語言模型、反應(yīng)式規(guī)劃器與行為樹的機(jī)器人實時故障處理統(tǒng)一框架

    本文提出一種創(chuàng)新的機(jī)器人實時故障處理統(tǒng)一框架,融合視覺語言模型(VLMs)、反應(yīng)式規(guī)劃器及行為樹(BTs),通過執(zhí)行前驗證與反應(yīng)式故障處理相結(jié)合,實現(xiàn)對意外障礙物、傳感器誤差等復(fù)雜場景的自適應(yīng)應(yīng)對。框架利用場景圖進(jìn)行結(jié)構(gòu)化環(huán)境感知,結(jié)合執(zhí)行歷史跟蹤技術(shù),支持上下文敏感的動態(tài)調(diào)整,可在 peg 插入、

    Ferchie 756 2025-05-21

  • NVIDIA Cosmos 如何通過物理仿真賦能物理 AI?解析世界基礎(chǔ)模型與合成數(shù)據(jù)技術(shù)的革新價值

    .NVIDIA Cosmos:通過仿真模擬賦能物理 AI 發(fā)展工廠里的機(jī)器人、道路上的自動駕駛汽車等物理 AI 系統(tǒng)的開發(fā),高度依賴大規(guī)模高質(zhì)量數(shù)據(jù)集進(jìn)行訓(xùn)練。

    Ferchie 1049 2025-05-06

  • 人工智能助力早期汽車工程流程

    本文探討了在汽車開發(fā)和工程流程的早期階段整合 AI 和基于知識的工程方法的問題

    專欄作者 772 2025-04-29

  • 彌合人工智能代理鴻溝:跨越自主能力光譜的實施困境與突破路徑

    本文深入剖析了人工智能代理實施現(xiàn)狀,通過對超 1250 個開發(fā)團(tuán)隊的調(diào)查數(shù)據(jù),揭示了計劃構(gòu)建復(fù)雜代理工作流程與成功生產(chǎn)部署之間的巨大差距。詳細(xì)闡述了從 L0 到 L5 的自主能力框架,分析各自主級別面臨的技術(shù)挑戰(zhàn)、技術(shù)??剂考皩嵤┈F(xiàn)實。還探討了開發(fā)方法、未來方向和技術(shù)路線圖,為人工智能開發(fā)者提供了極

    Ferchie 1121 2025-04-08

  • 使用利用人工智能幻覺評估影像真實感:大型視覺語言模型與自然語言推理的應(yīng)用智慧幻覺來評估影像真實感

    SEO 即搜索引擎優(yōu)化,是一種通過優(yōu)化網(wǎng)站內(nèi)容、結(jié)構(gòu)、代碼等多方面元素,來提高網(wǎng)站在搜索引擎自然排名結(jié)果中的位置,進(jìn)而增加網(wǎng)站流量、提升網(wǎng)站曝光度和用戶訪問量的技術(shù)和策略。它旨在使網(wǎng)站更符合搜索引擎的算法規(guī)則和用戶的搜索習(xí)慣,包括關(guān)鍵詞研究與布局、優(yōu)化頁面標(biāo)題和描述、提高網(wǎng)站加載速度、創(chuàng)建高質(zhì)量的內(nèi)

    Ferchie 177 2025-03-26

  • 深度剖析生成式人工智能:技術(shù)變革、行業(yè)影響與未來展望

    本文深入剖析生成式人工智能,詳細(xì)闡釋其與傳統(tǒng)人工智能的差異,如生成全新內(nèi)容的獨特能力。解析 ChatGPT 等典型應(yīng)用,對比大語言模型與生成式人工智能范疇。深度解讀其核心技術(shù),包括深度神經(jīng)網(wǎng)絡(luò)、Transformer 模型及大數(shù)據(jù)處理。全面探討優(yōu)勢與局限,涵蓋增強(qiáng)創(chuàng)造力、自動化流程、數(shù)據(jù)偏差等方面。

    Ferchie 169 2025-03-25

  • 對話 HealthAI 首席 AI 官 Alberto-Giovanni Busetto 博士:解鎖人工智能賦能醫(yī)療新未來

    Alberto-Giovanni Busetto 博士,HealthAI 首席人工智能官,擁有超 20 年 AI 經(jīng)驗,曾任職于默克等巨頭。在訪談中,他深入探討 AI 與醫(yī)療融合,剖析其改善全球醫(yī)療結(jié)果、縮小健康差距的潛力,闡述了在數(shù)據(jù)治理、倫理道德、監(jiān)管合作等方面面臨的挑戰(zhàn)與應(yīng)對策略,展現(xiàn)了 AI

    Ferchie 194 2025-03-24

  • 從單詞到概念的跨越:大型概念模型革新語言理解與生成全解析

    深度解析大型概念模型(LCM),它作為人工智能領(lǐng)域新興架構(gòu),突破大型語言模型局限,從處理單詞邁向處理概念,實現(xiàn)語言理解與生成的變革。文中詳細(xì)闡述 LCM 的定義、訓(xùn)練方式、顯著優(yōu)勢,也剖析其面臨的計算成本、可解釋性等挑戰(zhàn)及未來研究方向。帶你全面了解 LCM 如何重塑 AI 語言處理格局,是人工智能愛

    Ferchie 192 2025-03-21

  • 突破傳感器局限!AnyTouch 如何重塑機(jī)器人觸覺感知,實現(xiàn)跨傳感器統(tǒng)一表征?

    本文圍繞視覺觸覺傳感器在機(jī)器人領(lǐng)域的應(yīng)用展開,介紹了人大、武漢科技大學(xué)和北郵聯(lián)合研究的 “AnyTouch: Learning Unified Static-dynamic Representation Across Multiple Visuo-tactile Sensors”。文中指出,視覺觸覺

    三谷秋水 257 2025-03-20

  • 顛覆傳統(tǒng)!PointVLA 如何為視覺 - 語言 - 動作模型注入 3D 新動力,重塑機(jī)器人應(yīng)用格局?

    這篇文章聚焦于計算機(jī)視覺與機(jī)器人領(lǐng)域的前沿研究,介紹了 “PointVLA: Injecting the 3D World into Vision-Language-Action Models”。傳統(tǒng)視覺 - 語言 - 動作(VLA)模型依賴 2D 數(shù)據(jù),空間推理能力受限。PointVLA 創(chuàng)新性地

    三谷秋水 286 2025-03-20

  • OctoTools:斯坦福開源框架實現(xiàn)跨領(lǐng)域復(fù)雜推理(準(zhǔn)確率超越 GPT-4o 9.3%)

    斯坦福大學(xué)推出 OctoTools 開源框架,通過標(biāo)準(zhǔn)化工具卡、動態(tài)規(guī)劃器與執(zhí)行器協(xié)同,突破大模型復(fù)雜推理瓶頸。無需額外訓(xùn)練即可處理視覺理解、數(shù)學(xué)計算、醫(yī)學(xué)診斷等 16 類跨領(lǐng)域任務(wù),在 MathVista、MedQA 等基準(zhǔn)測試中平均準(zhǔn)確率達(dá) 58.5%,較 GPT-4o 提升 9.3%,優(yōu)于 A

    三谷秋水 211 2025-03-19

  • Mobile-Agent-V:視頻引導(dǎo)多智能體協(xié)同實現(xiàn)移動設(shè)備高效自動化操作(性能提升 30%)

    北京交大聯(lián)合阿里提出 Mobile-Agent-V 框架,通過視頻引導(dǎo)多智能體協(xié)作實現(xiàn)移動設(shè)備自動化操作。突破傳統(tǒng)依賴手動知識注入的局限,創(chuàng)新滑動窗口與深度反思機(jī)制,精準(zhǔn)解析用戶操作視頻,動態(tài)優(yōu)化執(zhí)行路徑,性能較現(xiàn)有方案提升 30%。適用于復(fù)雜跨應(yīng)用場景(如拍照禁用定位),降低人工干預(yù)成本,為 AI

    三谷秋水 198 2025-03-19

  • 具身多模態(tài)大模型:開發(fā)、數(shù)據(jù)集與未來趨勢解析(下)

    具身多模態(tài)大模型(EMLM)是融合語言、視覺、觸覺等多模態(tài)數(shù)據(jù)與物理交互能力的前沿 AI 系統(tǒng),由廣東人工智能和數(shù)字經(jīng)濟(jì)實驗室等機(jī)構(gòu)牽頭研究。本文系統(tǒng)梳理 EMLM 技術(shù)體系,剖析 PaLM-E、RT-1 等典型模型及 Open X-Embodiment、Habitat-Sim 等數(shù)據(jù)集,重點探討跨

    三谷秋水 243 2025-03-18

  • 具身多模態(tài)大模型:開發(fā)、數(shù)據(jù)集與未來趨勢解析(上)

    具身多模態(tài)大模型(EMLM)是融合語言、視覺、聽覺等多模態(tài)數(shù)據(jù)與物理交互能力的前沿 AI 系統(tǒng),由斯坦福李飛飛團(tuán)隊等機(jī)構(gòu)推動發(fā)展。本文系統(tǒng)梳理 EMLM 核心技術(shù),涵蓋大語言模型(LLM)、視覺模型(LVM)及跨模態(tài)架構(gòu),聚焦家庭服務(wù)、自動駕駛等場景的具身感知、導(dǎo)航與交互應(yīng)用。剖析 PaLM-E、R

    三谷秋水 320 2025-03-18

  • 行為機(jī)器人套件 BRS:家庭場景全身操控的低成本雙臂解決方案

    行為機(jī)器人套件(BRS)由斯坦福李飛飛團(tuán)隊開發(fā),是專為家庭場景設(shè)計的全身操控機(jī)器人解決方案。其核心搭載 Galaxea R1 雙臂機(jī)器人,配備 4 自由度軀干與全向移動基座,支持 2 米垂直 / 2.06 米水平作業(yè)范圍,覆蓋家庭物品分布的 98% 空間需求。創(chuàng)新集成 JoyLo 低成本遙操作界面(

    硅谷秋水 274 2025-03-18

  • TidyBot++ 開源完整移動機(jī)械手:家庭場景機(jī)器人學(xué)習(xí)的低成本全向解決方案

    TidyBot++ 是由普林斯頓、斯坦福與 dexterity.ai 聯(lián)合開發(fā)的開源完整移動機(jī)械手,專為家庭環(huán)境機(jī)器人學(xué)習(xí)設(shè)計。其創(chuàng)新采用動力腳輪驅(qū)動系統(tǒng),實現(xiàn)全平面自由度(x、y、θ)獨立控制,支持實時側(cè)向移動與精準(zhǔn)定位,顯著提升家庭任務(wù)(如擦桌、開冰箱、倒垃圾)的操作效率。系統(tǒng)配備手機(jī)遙操作界面

    硅谷秋水 308 2025-03-18

  • AlphaDrive:華中科技大學(xué) - 地平線聯(lián)合提出強(qiáng)化學(xué)習(xí)框架,突破自動駕駛 VLM 規(guī)劃瓶頸(MetaAD 提升 22%)

    華中科技大學(xué)聯(lián)合地平線提出 AlphaDrive 框架,創(chuàng)新性結(jié)合強(qiáng)化學(xué)習(xí)與推理技術(shù),突破自動駕駛 VLM 規(guī)劃瓶頸。通過 GRPO 算法與四種定制獎勵(規(guī)劃準(zhǔn)確性 / 動作加權(quán) / 多樣性 / 格式),在 MetaAD 數(shù)據(jù)集上實現(xiàn)橫向決策 F1 提升 22%、縱向決策 F1 提升 18%。采用

    三谷秋水 384 2025-03-17

  • Chameleon:清華 - 博世聯(lián)合提出快 - 慢神經(jīng)符號框架,突破無地圖自動駕駛車道拓?fù)涮崛【龋∣penLane-V2 提升 22%)

    清華大學(xué)聯(lián)合博世研發(fā)的 Chameleon 框架,創(chuàng)新性提出快 - 慢神經(jīng)符號推理架構(gòu),突破自動駕駛無地圖場景下的車道拓?fù)涮崛‰y題。通過動態(tài)合成程序的快速系統(tǒng)處理常規(guī)車道關(guān)系,結(jié)合 GPT-4 視覺模型的慢系統(tǒng)解決極端路口場景,在 OpenLane-V2 數(shù)據(jù)集上實現(xiàn)車道段檢測 DETIs 提升 2

    三谷秋水 392 2025-03-17

  • Occ-LLM:基于運動分離 VAE 的大模型架構(gòu),突破自動駕駛 4D 占用預(yù)測精度極限(港科大廣州)

    香港科技大學(xué)廣州分校最新研究提出 Occ-LLM 框架,創(chuàng)新性融合大語言模型與 3D 語義占用表示,突破傳統(tǒng)自動駕駛感知瓶頸。通過運動分離變分自動編碼器(MS-VAE)有效解決動態(tài) / 靜態(tài)場景分離難題,在 nuScenes 數(shù)據(jù)集上實現(xiàn) 4D 占用預(yù)測 IoU 提升 6%、mIoU 提升 4%。支

    三谷秋水 261 2025-03-17

  • 北大聯(lián)合理想汽車突破駕駛場景重建:ReconDreamer 首創(chuàng)在線恢復(fù)技術(shù),NTA-IoU 提升 24.87%(多車道變換場景)

    "ReconDreamer:北大聯(lián)合理想汽車首創(chuàng)動態(tài)駕駛場景重建框架!通過在線恢復(fù)技術(shù) + 漸進(jìn)式數(shù)據(jù)更新策略,在多車道變換等復(fù)雜機(jī)動中實現(xiàn) NTA-IoU 提升 24.87%(超越 Street Gaussians),F(xiàn)ID 指標(biāo)優(yōu)化 29.97%。技術(shù)突破包括:基于擴(kuò)散去噪的 Driv

    三谷秋水 273 2025-03-14

  • 顛覆端到端自動駕駛:零樣本 LLM + 閉環(huán)架構(gòu),單錐體訓(xùn)練實現(xiàn)復(fù)雜場景泛化(90% 數(shù)據(jù)標(biāo)注減少)

    "紐約州立大學(xué)顛覆性突破:全球首個零樣本 LLM 賦能端到端自動駕駛閉環(huán)架構(gòu)!僅需單錐體極簡環(huán)境訓(xùn)練,通過 LLM 實時生成左轉(zhuǎn) / 右轉(zhuǎn)指令,成功應(yīng)對多障礙物、動態(tài)場景及視覺干擾(如之字形走廊 + 垃圾桶)。技術(shù)創(chuàng)新包括:基于 ChatGPT-4o 的多模態(tài)指令生成鏈(障礙物識別→路徑評

    三谷秋水 247 2025-03-14

  • AgiBot World Colosseo:MIT 開源百萬級雙臂機(jī)器人數(shù)據(jù)集(100 萬軌跡 ×217 任務(wù)),ViLLA 框架登頂具身智能 SOTA(60% 成功率,超 RDT 32%)

    "AgiBot World Colosseo:全球首個百萬級雙臂機(jī)器人操控數(shù)據(jù)集(100 萬 + 軌跡 / 217 任務(wù) / 87 技能),ViLLA 框架突破具身智能泛化極限!基于 AgiBot G1 人形平臺(6 自由度靈巧手 + 視覺觸覺融合),在超市補(bǔ)貨、折疊短褲等復(fù)雜任務(wù)中實現(xiàn)

    三谷秋水 253 2025-03-14

  • Satori:COAT 推理 + 強(qiáng)化學(xué)習(xí)革新 LLM!MIT 開源 7B 模型登頂數(shù)學(xué)推理 SOTA(自回歸搜索 + 自我改進(jìn))

    探索 Satori 模型如何通過行動 - 思維 - 鏈(COAT)推理與強(qiáng)化學(xué)習(xí)革新大語言模型(LLM)的推理能力!本文提出兩階段訓(xùn)練范式:格式調(diào)整階段通過模仿學(xué)習(xí)內(nèi)化 COAT 推理格式,自我改進(jìn)階段利用 PPO 算法與重啟探索策略(RAE)實現(xiàn)模型自主優(yōu)化。Satori 作為開源 7B 模型,在

    三谷秋水 223 2025-03-14

  • 像人類視覺一樣聚焦:MOBA 如何讓 LLM 自主選擇關(guān)鍵上下文塊(附清華 / 浙大最新研究)

    清華大學(xué)聯(lián)合浙江大學(xué)提出 MOBA 混合塊注意機(jī)制,突破長上下文 LLM 的二次計算瓶頸。通過融合混合專家(MoE)架構(gòu),MOBA 允許模型動態(tài)選擇關(guān)鍵上下文塊進(jìn)行稀疏注意,在保持完整注意力性能的同時,將計算復(fù)雜度線性化。相比傳統(tǒng)靜態(tài)稀疏方法(如滑動窗),MOBA 無需預(yù)定義結(jié)構(gòu),支持全注意與稀疏模

    三谷秋水 280 2025-03-13

  • LeapVAD:雙過程決策 + 認(rèn)知感知,突破自動駕駛長尾場景瓶頸(CARLA 模擬器驗證)

    LeapVAD 自動駕駛框架,突破傳統(tǒng)數(shù)據(jù)驅(qū)動方法局限。通過認(rèn)知感知模塊動態(tài)聚焦關(guān)鍵交通要素,構(gòu)建多屬性場景表征,并融合雙過程決策機(jī)制:系統(tǒng) II(分析過程)依托 LLM 邏輯推理積累經(jīng)驗,系統(tǒng) I(啟發(fā)式過程)通過少樣本學(xué)習(xí)實現(xiàn)快速響應(yīng)。創(chuàng)新場景編碼器網(wǎng)絡(luò)生成緊湊場景 token,支持高效經(jīng)驗檢

    三谷秋水 396 2025-03-13

  • 工業(yè)級具身智能落地:AgiBot World Colosseo 在倉儲 / 裝配 / 服務(wù)場景中的多模態(tài)任務(wù)實測

    智元機(jī)器人推出 AgiBot World Colosseo 大型操控平臺,構(gòu)建百萬級具身智能數(shù)據(jù)集,包含 217 個任務(wù)場景與多模態(tài)傳感器數(shù)據(jù),突破傳統(tǒng)機(jī)器人數(shù)據(jù)碎片化限制。通過雙機(jī)械臂靈巧手硬件平臺、人在環(huán)驗證機(jī)制及故障恢復(fù)數(shù)據(jù)標(biāo)注,確保數(shù)據(jù)質(zhì)量與多樣性。創(chuàng)新 ViLLA 框架結(jié)合潛動作模型與潛規(guī)

    三谷秋水 239 2025-03-13

  • Satori:COAT 強(qiáng)化學(xué)習(xí)框架突破 LLM 推理極限,MIT 團(tuán)隊開源 7B 模型實現(xiàn)數(shù)學(xué)推理 SOTA

    這篇文章介紹了 Satori 模型,通過行動 - 思維 - 鏈(COAT)機(jī)制和強(qiáng)化學(xué)習(xí)實現(xiàn) LLM 推理能力的自我增強(qiáng)。提出兩階段訓(xùn)練范式:1)格式調(diào)整階段內(nèi)化 COAT 推理格式;2)強(qiáng)化學(xué)習(xí)階段通過重啟探索策略(RAE)和迭代自我改進(jìn)提升推理精度。該方法在開源數(shù)據(jù)上訓(xùn)練 7B 模型,在數(shù)學(xué)推理

    三谷秋水 260 2025-03-13

  • 駕駛世界模型(DWM)系統(tǒng)性綜述:多模態(tài)融合與時空建模賦能自動駕駛復(fù)雜場景,nuScenes 基準(zhǔn)關(guān)鍵技術(shù)突破

    本文系統(tǒng)綜述駕駛世界模型(DWM)在自動駕駛中的核心作用,全面梳理其技術(shù)演進(jìn)與應(yīng)用場景。研究從 2D/3D 場景演化、無場景范式(潛狀態(tài) / 多智體行為)兩大維度分類方法,重點分析多模態(tài)融合、時空一致性建模、可控生成等關(guān)鍵技術(shù)。論文深入探討 DWM 在模擬、數(shù)據(jù)生成、預(yù)期駕駛及 4D 預(yù)訓(xùn)練中的創(chuàng)新

    三谷秋水 365 2025-03-12

  • VLM-E2E:視覺 - 語言與 BEV 融合賦能端到端自動駕駛,nuScenes 動態(tài)場景接近人類駕駛水平

    本文提出VLM-E2E框架,通過融合視覺 - 語言模型(VLM)與鳥瞰圖(BEV)特征,創(chuàng)新性地引入駕駛員注意語義監(jiān)督,顯著提升端到端自動駕駛在復(fù)雜場景中的決策能力。該方法利用 BLIP-2 生成文本注釋,結(jié)合 CLIP 編碼文本特征,并通過可學(xué)習(xí)的 BEV-Text 加權(quán)融合策略動態(tài)平衡多模態(tài)信息

    三谷秋水 352 2025-03-12

  • 預(yù)測逆動力學(xué)模型 Seer:端到端視覺 - 動作協(xié)同賦能機(jī)器人操作,CALVIN 序列長度 4.28 + 真實任務(wù) 43% 提升

    本文提出預(yù)測逆動力學(xué)模型(PIDM),通過端到端框架實現(xiàn)機(jī)器人操作的可擴(kuò)展學(xué)習(xí)。該方法將條件視覺預(yù)見與逆動力學(xué)預(yù)測相結(jié)合,形成閉環(huán)控制,有效利用大規(guī)模機(jī)器人數(shù)據(jù)(如 DROID)進(jìn)行預(yù)訓(xùn)練,并通過少量微調(diào)適應(yīng)真實場景。實驗表明,模型(命名為 Seer)在 LIBERO-LONG 基準(zhǔn)上提升 13%、

    三谷秋水 300 2025-03-12

  • 擴(kuò)散 Transformer 策略:大規(guī)模預(yù)訓(xùn)練驅(qū)動跨具身 VLA 泛化,Calvin 基準(zhǔn) 3.6 任務(wù)突破

    本文提出擴(kuò)散 Transformer 策略(Diffusion Transformer Policy),通過大規(guī)模擴(kuò)散 Transformer 模型實現(xiàn)通才視覺 - 語言 - 動作(VLA)學(xué)習(xí),突破傳統(tǒng)動作頭設(shè)計的局限性。該方法直接利用 Transformer 對連續(xù)動作塊進(jìn)行去噪建模,結(jié)合跨具身

    三谷秋水 282 2025-03-12

  • OpenVLA-OFT:OFT 并行解碼 + 動作分塊,機(jī)器人控制成功率 97.1%,速度提升 26 倍

    本文提出 OpenVLA-OFT,一種基于優(yōu)化微調(diào)(OFT)的視覺 - 語言 - 行動模型,通過并行解碼、動作分塊和連續(xù)動作表示三大核心創(chuàng)新,突破傳統(tǒng)自回歸模型在推理速度與任務(wù)成功率上的瓶頸。研究表明,OFT 方案在 LIBERO 模擬基準(zhǔn)上實現(xiàn)平均成功率 97.1%,較基線提升 26.9%,同時動

    三谷秋水 468 2025-03-11

  • ForceMimic:HybridIL + 力控制,機(jī)器人接觸操作成功率提升 54.5%

    本文提出 ForceMimic,一種以力為中心的機(jī)器人模仿學(xué)習(xí)系統(tǒng),通過創(chuàng)新的 ForceCapture 數(shù)據(jù)采集設(shè)備與 HybridIL 算法,突破傳統(tǒng)軌跡驅(qū)動策略在接觸豐富操作中的局限性。ForceCapture 系統(tǒng)實現(xiàn)低成本、無機(jī)器人的自然力 - 運動數(shù)據(jù)采集,操作員 5 分鐘內(nèi)即可完成西葫

    三谷秋水 245 2025-03-11

  • CarPlanner:一致性自回歸 RL 框架,突破自動駕駛軌跡規(guī)劃效率與一致性瓶頸

    本文提出的 CarPlanner 是一種面向自動駕駛的一致性自回歸軌跡規(guī)劃模型,通過結(jié)合強(qiáng)化學(xué)習(xí)(RL)與自回歸結(jié)構(gòu),突破了傳統(tǒng)規(guī)劃器在大規(guī)模場景下訓(xùn)練效率低、多模態(tài)軌跡一致性差的難題。模型創(chuàng)新性地引入縱向 - 橫向模式分解框架,利用非反應(yīng)式轉(zhuǎn)換模型預(yù)生成交通參與者軌跡,通過一致性模式條件策略實現(xiàn)多

    三谷秋水 327 2025-03-11

  • PreWorld:半監(jiān)督視覺中心 3D/4D 占用模型,突破自動駕駛場景理解成本與精度瓶頸

    本文提出了一種用于自動駕駛的半監(jiān)督視覺中心 3D 占用世界模型 PreWorld,通過兩階段訓(xùn)練范式(自監(jiān)督預(yù)訓(xùn)練 + 全監(jiān)督微調(diào))有效利用 2D 標(biāo)簽,顯著降低 3D 占用注釋成本。模型創(chuàng)新性地引入狀態(tài)條件預(yù)測模塊和體渲染技術(shù),實現(xiàn)高精度 3D/4D 場景理解與動態(tài)預(yù)測,在自動駕駛場景中展現(xiàn)出高效

    三谷秋水 262 2025-03-11

  • OpenVLA-OFT 框架:并行解碼與動作分塊協(xié)同加速 VLA 模型,實現(xiàn) 26 倍吞吐量提升與 97.1% 任務(wù)成功率

    本文提出 OpenVLA-OFT 框架,通過優(yōu)化微調(diào)策略顯著提升視覺 - 語言 - 行動(VLA)模型的推理速度與任務(wù)成功率。研究聚焦三大核心創(chuàng)新:并行解碼與動作分塊技術(shù)將動作生成吞吐量提升 26 倍,連續(xù)動作表示結(jié)合 L1 回歸目標(biāo)避免離散化損失,以及多模態(tài)輸入處理增強(qiáng)復(fù)雜場景適應(yīng)性。實驗表明,O

    三谷秋水 644 2025-03-10

  • Sce2DriveX 框架:多模態(tài) MLLM 與思維鏈推理推動類人自動駕駛的跨場景泛化

    本文提出 Sce2DriveX 框架,一種基于多模態(tài)大語言模型(MLLM)的場景到駕駛學(xué)習(xí)通用框架,旨在解決自動駕駛中跨場景泛化與人類認(rèn)知一致性難題。Sce2DriveX 通過融合多視角視頻與 BEV 地圖的多模態(tài)聯(lián)合學(xué)習(xí),強(qiáng)化 3D 時空關(guān)系理解與道路拓?fù)渫评恚⒅貥?gòu)人類駕駛思維鏈(CoT),涵蓋

    三谷秋水 287 2025-03-10

  • HPT 框架:異構(gòu)預(yù)訓(xùn)練 Transformer 推動機(jī)器人跨具身與任務(wù)的高效策略遷移

    本文提出異構(gòu)預(yù)訓(xùn)練 Transformer(HPT)框架,通過模塊化架構(gòu)解決機(jī)器人學(xué)習(xí)中異構(gòu)數(shù)據(jù)的挑戰(zhàn)。HPT 利用具身特定的 stem 將不同傳感器輸入(本體感受、視覺等)對齊到共享潛空間,結(jié)合共享 trunk 和任務(wù)特定 head,實現(xiàn)跨具身和任務(wù)的泛化策略學(xué)習(xí)。研究基于 52 個數(shù)據(jù)集(涵蓋模

    三谷秋水 315 2025-03-10

  • 基于深度學(xué)習(xí)的自動駕駛小車開發(fā)(Pytorch實現(xiàn),含完整數(shù)據(jù)和源碼,樹莓派+神經(jīng)計算棒)

    本文詳細(xì)介紹了如何使用深度學(xué)習(xí)技術(shù),結(jié)合Pytorch框架,開發(fā)一套基于視覺的自動駕駛小車系統(tǒng)。從模擬平臺安裝使用到真實樹莓派小車部署,全程覆蓋,包括完整的代碼和數(shù)據(jù)集。通過OpenCV進(jìn)行傳統(tǒng)圖像處理與深度學(xué)習(xí)模型訓(xùn)練的比較,展示了深度學(xué)習(xí)的強(qiáng)大能力。同時,文章還指導(dǎo)如何在樹莓派上結(jié)合神經(jīng)計算棒N

    錢彬 575 2025-03-05

  • Helix 讓 Figure-2 加速現(xiàn)實世界的物流

    本文展示如何將高質(zhì)量數(shù)據(jù)集與立體多尺度視覺、在線標(biāo)定和測試-時間加速等架構(gòu)改進(jìn)相結(jié)合,在現(xiàn)實世界的物流分類場景中實現(xiàn)比演示者更快的靈巧機(jī)器人操作——所有這些都在使用相對適量演示數(shù)據(jù)的情況下完成。結(jié)果突出將端到端視覺運動策略擴(kuò)展到速度和精度至關(guān)重要的復(fù)雜工業(yè)應(yīng)用上的潛力。

    三谷秋水 208 2025-03-04

  • 學(xué)習(xí)現(xiàn)實世界人形機(jī)器人的起身策略

    本文開發(fā)學(xué)習(xí)控制器,使人形機(jī)器人能夠在各種地形上從各種跌倒姿勢中站起來。人形機(jī)器人容易跌倒,而它們對人類跌倒恢復(fù)的依賴阻礙它們的部署。此外,由于人形機(jī)器人預(yù)計會在復(fù)雜地形和狹小工作空間的環(huán)境中工作(即對輪式機(jī)器人來說太難的具有挑戰(zhàn)性場景),人形機(jī)器人在跌倒時可能會處于不可預(yù)測的配置,或者可能處于未知

    三谷秋水 272 2025-03-04

  • 大語言模型中的邏輯推理:綜述

    隨著 OpenAI o3 和 DeepSeek-R1 等高級推理模型的出現(xiàn),大語言模型 (LLM) 已展示出卓越的推理能力。然而,它們進(jìn)行嚴(yán)格邏輯推理的能力仍是一個懸而未決的問題。本綜述綜合人工智能研究的關(guān)鍵領(lǐng)域 LLM 中邏輯推理的最新進(jìn)展。它概述 LLM 中邏輯推理的范圍、其理論基礎(chǔ)以及用于評估

    三谷秋水 289 2025-03-03

  • 強(qiáng)化學(xué)習(xí)中 Sim-to-Real 方法綜述:基礎(chǔ)模型的進(jìn)展、前景和挑戰(zhàn)

    這篇綜述論文從馬爾可夫決策過程的關(guān)鍵要素(狀態(tài)、動作、轉(zhuǎn)換和獎勵)構(gòu)建模擬-到-現(xiàn)實技術(shù)的分類。基于該框架,涵蓋從經(jīng)典到最先進(jìn)方法的全面文獻(xiàn),包括由基礎(chǔ)模型賦能的模擬-到-現(xiàn)實技術(shù),并討論模擬-到-現(xiàn)實問題不同領(lǐng)域中值得關(guān)注的特點。總結(jié)使用可訪問代碼或基準(zhǔn)的模擬-到-現(xiàn)實性能的正式評估過程,以及挑戰(zhàn)

    三谷秋水 346 2025-03-03

  • HiRT:利用分層機(jī)器人Transformer 增強(qiáng)機(jī)器人控制

    大型視覺-語言-動作 (VLA) 模型利用強(qiáng)大的預(yù)訓(xùn)練視覺-語言模型 (VLM) 后端,由于其深刻的泛化能力而在機(jī)器人控制方面顯示出良好的前景。然而,成功是有代價的。它們對具有數(shù)十億個參數(shù)的 VLM 后端的依賴導(dǎo)致高昂的計算成本和推理延遲,將測試場景限制在主要的準(zhǔn)靜態(tài)任務(wù)上,并阻礙需要快速交互的動態(tài)

    三谷秋水 212 2025-03-03

  • 從系統(tǒng) 1 到系統(tǒng) 2:大語言模型推理的綜述

    本文概述首先簡要概述基礎(chǔ) LLM 的進(jìn)展和系統(tǒng) 2 技術(shù)的早期發(fā)展,探討它們的結(jié)合如何為推理 LLM 鋪平道路。其討論如何構(gòu)建推理 LLM,分析其特性、實現(xiàn)高級推理的核心方法以及各種推理 LLM 的演變。此外,還概推理基準(zhǔn),對代表性推理 LLM 的性能進(jìn)行了深入比較。

    硅谷秋水 269 2025-03-03

  • Video2Policy:通過互聯(lián)網(wǎng)視頻規(guī)模化模擬中的操作任務(wù)

    模擬為通才策略提供一種廉價的規(guī)?;?xùn)練數(shù)據(jù)的方法。為了可擴(kuò)展地從多樣化和現(xiàn)實的任務(wù)中生成數(shù)據(jù),現(xiàn)有的算法要么依賴于大語言模型 (LLM),這可能會產(chǎn)生機(jī)器人不感興趣的任務(wù);要么依賴于數(shù)字孿生,這需要仔細(xì)的真實-到-模擬對齊并且難以規(guī)?;?。為了應(yīng)對這些挑戰(zhàn),引入 Video2Policy,這是一個利用

    黃浴 172 2025-02-28

  • LAMS:LLM 驅(qū)動自動模式切換輔助遙操作

    通過低自由度控制器(如操縱桿)遙操作高自由度 (DoF) 機(jī)器人操縱器,通常需要在控制模式之間頻繁切換,其中每種模式將控制器運動映射到特定的機(jī)器人動作。手動執(zhí)行這種頻繁切換會使遙操作變得繁瑣且效率低下。另一方面,現(xiàn)有的自動模式切換解決方案(例如基于啟發(fā)式或基于學(xué)習(xí)的方法)通常是針對特定任務(wù)的,缺乏通

    黃浴 231 2025-02-28

  • RoboHorizo??n:用于長期機(jī)器人操作的 LLM-輔助多視圖世界模型

    由于復(fù)雜的表示和策略學(xué)習(xí)要求,長期機(jī)器人操作的有效控制具有挑戰(zhàn)性?;谀P偷囊曈X強(qiáng)化學(xué)習(xí) (RL) 在解決這些挑戰(zhàn)方面表現(xiàn)出巨大潛力,但仍然面臨明顯的局限性,特別是在處理長期環(huán)境中的稀疏獎勵和復(fù)雜視覺特征時。為了解決這些限制,本文提出用于長期任務(wù)的識別-感知-規(guī)劃-動作 (RSPA) 流程,并進(jìn)一步

    黃浴 216 2025-02-27

  • 返回頂部小火箭