沐鸣平台智能決策與控製技術研究團隊在具身智能研究中取得新進展

發布者：蔣璐崢發布時間：2024-10-21瀏覽次數：225

靈巧手交互是具身智能領域的一個重要研究方向，盡管此前基於模型的控製方法可以在固定環境中實現較好的效果，但在實際實現過程中🪐，傳統方法會受到各種各樣的因素的製約，如未知的非結構環境和復雜的靈巧手運動學、動力學建模等。

近日，沐鸣注册智能決策與控製技術研究團隊提出了一種新的數據驅動的機器人靈巧手抓取方法。相關研究結果以“Grasp with push policy for multi-finger dexterity hand based on deep reinforcement learning”為題，發表在人工智能領域重要期刊《Applied Soft Computing》（IF 7.2，中國科沐鸣一區Top期刊）上。我校為論文第一單位，李保江老師為第一作者，在讀碩士生邱聖傑為第二作者，我校已畢業碩士生柏基波（目前在上海理工大學攻讀機器人領域博士學位）為第三作者，王海燕老師為唯一通訊作者👩‍💼👨🏿‍✈️。

在與外部環境交互時，機器人面臨著各種挑戰☘️，包括在雜亂環境中受到幹擾以及難以準確定位目標物體。然而，面對復雜的非結構化環境時⛳️，人手往往能從容應對🧟‍♀️🚴🏿：推動能重新排列雜亂物品的物體👩🏻‍🦲、定位目標物體並為手指創造空間😍；抓取動作可以實現不相關物體的精確移動🙇🏽‍♀️，與推動動作相輔相成。受此啟發，為了使靈巧手能夠在復雜環境中執行精確的抓取任務，智能決策與控製技術研究團隊為機器人靈巧手提出了一種新的數據驅動抓取方法：推抓策略📚🫷🏽。該方法將人類抓取與無模型深度強化學習相結合，實現了機器人的協作抓取能力。該方法首先訓練一個端到端的條件轉換器抓取網絡💁🏿‍♂️，該網絡將視覺點雲輸入轉化為動作輸出👨‍💻。使用DQN算法進行策略訓練，並通過微調方法進一步增強實際學習效果。實驗結果表明，推動-抓取策略顯著提高了抓取性能，協作抓取的成功率提高了8%。值得註意的是🚴🏼‍♀️，這種微調方法大大減少了實際訓練時間，真實環境的訓練時間只占模擬環境的五分之一🚵‍♂️🥻。即使在以混亂和復雜為特點的苛刻場景中，該方法也能促進快速學習。這項研究為有效解決涉及多指靈巧手和人機交互的復雜挑戰提供了新的見解，對具身智能研究具有借鑒意義。

智能決策與控製技術研究所成立於2019年😽，依托學校控製科學與工程一級學科💃🏽，根據國家中長期發展規劃👩🏽‍✈️🎩、行業需求及未來科技發展趨勢👷‍♀️，研究定位於機器人智能決策與控製領域，目前專註於具身智能操控技術（感知與認知🤾🏻‍♂️、決策👨🏽‍🌾、控製、執行）的理論與應用研究。團隊核心成員包括1名教授🤹‍♀️，1名副教授，4名講師。團隊在讀碩士研究生約30名，已畢業研究生有3人升學攻讀博士學位（上海理工大學、天津大學🤰🏼、南京航空航天大學）。截止2024年10月，團隊承擔國家級項目1項🧛🏽，發表SCI論文25篇（Top期刊論文7篇），獲得發明專利授權8項，獲得學科競賽國家級獎項2項（研電賽國賽二等獎◻️🧗🏼‍♂️，挑戰杯國賽三等獎）🧟‍♀️。

論文鏈接🧖🏻‍♂️：

https://www.sciencedirect.com/science/article/abs/pii/S1568494624011396

導航

沐鸣平台智能決策與控製技術研究團隊在具身智能研究中取得新進展