具身智能(Embodied AI)被譽為下一個人工智能的浪潮,是人工智能技術(shù)與機器人技術(shù)融合的產(chǎn)物,成為科技創(chuàng)新高度密集、前沿技術(shù)加速融合、大國競相開展戰(zhàn)略布局的關(guān)鍵領(lǐng)域。人工智能大模型技術(shù)的突破,為機器人提供了強化的“大腦”與“小腦”,更為機器人與環(huán)境的交互帶來了新的著力點,有望成為具身智能加速落地的關(guān)鍵引擎,催生技術(shù)與范式的深刻蝶變。
一、大模型驅(qū)動下的具身智能
具身智能旨在依托軟硬件結(jié)合的智能系統(tǒng)(智能體)實現(xiàn)在物理世界感知和理解環(huán)境、并與環(huán)境實時互動,通常表現(xiàn)為不同形態(tài)的機器人在真實物理環(huán)境下通過適應(yīng)性行為來執(zhí)行任務(wù),是一種全新的智能范式。通俗來說,具身智能就是將人工智能搭載在機器人等物理“身體”上,使“身體”具備自學(xué)習(xí)能力,實現(xiàn)“知行合一”。
具身智能在架構(gòu)上可以分為“大腦”“小腦”和“本體”。依托三者協(xié)同配合,機器人才能像人類一樣去面對各項需求,完成各類任務(wù)。其中,“大腦”主要通過大模型驅(qū)動決策和智能處理;“小腦”通過運動控制算法等實現(xiàn)運動控制和協(xié)調(diào);“本體”通過傳感器、執(zhí)行器、靈巧手等硬件設(shè)備實現(xiàn)與環(huán)境互動。
圖片來源:北國咨根據(jù)國訊芯微(蘇州)科技有限公司等網(wǎng)站公開資料整理繪制
圖1 具身智能總體架構(gòu)
強大的“大腦”對于具身智能至關(guān)重要,沒有“大腦”,機器人只是一個失去智能的、只可移動的機械裝置。目前,多模態(tài)大模型技術(shù)加速演進,能力邊界被不斷拓寬,為推動具身智能“大腦”快速升級提供了有效路徑。一是大模型增強了機器人的感知與理解能力。多模態(tài)大模型可處理語言、視覺、觸覺等多種類型數(shù)據(jù),超越了單一模態(tài)難以應(yīng)對復(fù)雜實際場景的限制,使機器人能夠更準(zhǔn)確、全面地理解復(fù)雜場景和任務(wù)。二是大模型提升了人機交互的體驗。多模態(tài)大模型的不斷迭代讓機器人能通過語音、手勢等信息更準(zhǔn)確理解人類意圖,提供深度個性化的體驗。三是大模型賦予了機器人自主規(guī)劃決策的能力。大模型在大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練后,讓機器人具備更強的學(xué)習(xí)能力,不斷提升其通用性和泛化性。
二、行業(yè)落地路徑分析
縱觀國內(nèi)外產(chǎn)業(yè)界與學(xué)術(shù)界具身智能技術(shù)及產(chǎn)品的落地實踐,主要路徑如下:
軟硬件一體化推進,加快成果轉(zhuǎn)化和應(yīng)用落地探索。如中國科學(xué)院自動化所自主研發(fā)千億參數(shù)全模態(tài)大模型“紫東太初”,打通感知、認知、決策交互屏障,完成圖像、文本、語音等跨模態(tài)數(shù)據(jù)對齊,理解和生成能力更接近人類。同時,研發(fā)人形機器人設(shè)計組裝“大工廠”,可自動完成人形機器人硬件AI設(shè)計方案和軟件算法的選擇,并在高精度環(huán)境下進行快速驗證,大幅縮短現(xiàn)有研發(fā)周期。在此基礎(chǔ)上,開發(fā)推出Q系列機器人,并面向家庭服務(wù)、智能制造不同場景開展應(yīng)用探索。
圖片來源:中國科學(xué)院自動化所視頻號
圖2 Q系列機器人
技術(shù)供給端主動布局,瞄準(zhǔn)行業(yè)痛點和關(guān)鍵領(lǐng)域深入研究。如谷歌自研系列具身智能大模型,其中RT-2大模型是端到端的具身大模型的代表,可以從網(wǎng)絡(luò)和機器人數(shù)據(jù)中學(xué)習(xí),并將這些知識轉(zhuǎn)化為機器人控制的通用指令,使機器人在未見過的環(huán)境中展示出強大的泛化、語義理解和推理能力。智源研究院主要聚焦具身智能“大腦”領(lǐng)域,已取得多項世界級突破性成果,如開發(fā)具身操作 VLA大模型、具身導(dǎo)航 VLA 大模型等,使機器人在復(fù)雜環(huán)境中表現(xiàn)出更優(yōu)越的多樣性、靈活性和泛化性。
技術(shù)應(yīng)用方積極對接上游技術(shù)資源,賦能自身業(yè)務(wù)發(fā)展。智源研究院部分研究成果已在銀河通用(北京)落地,雙方共同研發(fā)了Galbot的大腦大模型,實現(xiàn)了機器人的穩(wěn)定識別和抓取操作。優(yōu)必選(深圳)與百度合作為人形機器人Walker S接入文心大模型,進行具身智能應(yīng)用升級訓(xùn)練,從而獲得高級的意圖理解能力和細粒度規(guī)劃能力。
圖片來源:銀河通用官網(wǎng)
圖3 銀河通用Galbot機器人
三、當(dāng)前面臨的瓶頸與挑戰(zhàn)
全球范圍內(nèi)大模型驅(qū)動的具身智能成果層出,為該領(lǐng)域發(fā)展帶來極大信心。但目前業(yè)內(nèi)對大模型賦能具身智能落地是否為最優(yōu)路徑尚存爭議,在仰望“星空”的同時,仍需看到當(dāng)下的面臨的瓶頸與挑戰(zhàn)。
用于模型訓(xùn)練的高質(zhì)量數(shù)據(jù)缺乏。具身智能機器人的訓(xùn)練數(shù)據(jù)主要來源于模擬器和真實世界,但現(xiàn)有交互數(shù)據(jù)尚不足以反哺模型訓(xùn)練。真實數(shù)據(jù)面臨獲取成本過高、質(zhì)量參差和多樣性不足的挑戰(zhàn),仿真合成數(shù)據(jù)面臨模擬環(huán)境與現(xiàn)實世界存在差異的挑戰(zhàn),要達到大模型對于數(shù)據(jù)量的需求,仍需長時間的采集和積累。
大模型與機器人技術(shù)尚未深度融合。盡管大模型很大程度增強了機器人學(xué)習(xí)、理解等能力,但仍存在機器人通用基礎(chǔ)大模型未建立、軟硬件系統(tǒng)協(xié)同能力差等技術(shù)瓶頸,再加上研發(fā)周期長、投入高,短期內(nèi)要消弭 Sim2Real的偏差,突破技術(shù)臨界點,還有很長一段路要走。
具身智能的應(yīng)用場景還未完全打開。理論上講,具身智能的實踐場景非常廣泛,在多行業(yè)領(lǐng)域應(yīng)用潛力巨大,但由于技術(shù)成熟度和穩(wěn)定性不足等問題,還需要在應(yīng)用場景中進一步驗證和改進。近期剛結(jié)束的2024世界機器人大會的具身智能相關(guān)展品用途仍以展示、科研為主,落地場景還較為有限。
四、相關(guān)建議
針對上述瓶頸與挑戰(zhàn),可以考慮從以下方面開展工作:
搭建數(shù)字訓(xùn)練世界與操作數(shù)據(jù)采集區(qū)。通過物理仿真,制造一個模擬真實世界的數(shù)字訓(xùn)練世界,加速模型開發(fā)迭代。建設(shè)面向商場、工廠、家庭等場景的操作數(shù)據(jù)采集區(qū),持續(xù)采集真實操作數(shù)據(jù)。搭建具身智能預(yù)訓(xùn)練數(shù)據(jù)集開放平臺、指令數(shù)據(jù)集標(biāo)注平臺等共享平臺,賦能具身智能行業(yè)應(yīng)用。
增強技術(shù)融合應(yīng)用研究能力。鼓勵科研院校和企業(yè)加快具身智能前沿領(lǐng)域布局與探索,積極擁抱大模型技術(shù),打造開源平臺構(gòu)建合作生態(tài),持續(xù)推動大模型泛化能力提升、機器人通用基礎(chǔ)大模型開發(fā)等技術(shù)突破。同時在學(xué)科設(shè)置、交叉培養(yǎng)、海外人才引進,國際賽事舉辦等人才引育方面予以加強。
積極拓展應(yīng)用場景進行驗證完善。打造面向場景、技術(shù)的服務(wù)對接平臺,精準(zhǔn)挖掘場景需求,有序拓展場景應(yīng)用,率先在特種行業(yè)、工業(yè)制造等領(lǐng)域進行試點落地,逐步擴展至倉儲物流、養(yǎng)老服務(wù)、醫(yī)療衛(wèi)生等場景,通過實踐不斷驗證推動技術(shù)更新,漸進式推進具身智能從研發(fā)機構(gòu)和特定應(yīng)用場景走向更廣泛的消費市場。
參考文獻:
[1] 對話王田苗:萬億市場之下,大模型+機器人還有四大問題未解決 | 硬氪專訪[EB/OL].(2024-04-26)[2024-09-01].https://www.163.com/dy/article/J0ML5OM205118DFD.html
[2] 一萬字,讀懂具身智能的技術(shù)趨勢、產(chǎn)業(yè)應(yīng)用與未來走向[EB/OL].(2024-07-31)[2024-09-01].https://new.qq.com/rain/a/20240731A075QS00?suid=&media_id=
[3] 人形機器人如何走向?qū)嶋H應(yīng)用?揭秘“大工廠”研發(fā)背后的故事[EB/OL].(2024-03-23)[2024-09-01].https://content-static.cctvnews.cctv.com/snow-book/index.html?item_id=12138468287686999380&track_id=A0616555-7D4A-4ABB-9787-E925C766B9C6_732885782032
[4] 國訊芯微(蘇州)科技有限公司
[EB/OL].(2024-09-01)[2024-09-01].https://www.niic.net.cn/Home/Index/about
[5] 北京銀河通用機器人有限公司
[EB/OL].(2024-09-01)[2024-09-01].https://www.galbot.com
作 者
梁 雨,長期關(guān)注研究人工智能領(lǐng)域