Pomáháme robotům zaměřit se na předměty, na kterých záleží | Zprávy MIT

Pomáháme robotům zaměřit se na předměty, na kterých záleží | Zprávy MIT



MIT Scene Tasks 01 press

Představte si, že musíte narovnat zaneřáděnou kuchyni, počínaje pultem plným balíčků omáčky. Pokud je vaším cílem vyčistit počítadlo, můžete pakety smést jako skupina. Pokud byste však chtěli nejprve vybrat balíčky hořčice, než vyhodit zbytek, třídili byste rozlišovaněji podle typu omáčky. A pokud jste mezi hořčicemi zatoužili po Grey Poupon, nalezení této konkrétní značky by znamenalo pečlivější hledání.

Inženýři MIT vyvinuli metodu, která umožňuje robotům dělat podobně intuitivní rozhodnutí související s daným úkolem.

Nový přístup týmu, pojmenovaný Clio, umožňuje robotovi identifikovat části scény, na kterých záleží, vzhledem k aktuálním úkolům. S Cliem robot přijímá seznam úkolů popsaných v přirozeném jazyce a na základě těchto úkolů pak určuje úroveň zrnitosti potřebnou k interpretaci okolí a „zapamatování“ si pouze těch částí scény, které jsou relevantní.

Ve skutečných experimentech od přeplněné kóje až po pětipatrovou budovu v kampusu MIT tým použil Clio k automatickému segmentování scény na různých úrovních zrnitosti na základě sady úkolů specifikovaných v pokynech v přirozeném jazyce, jako je „přesunout stojan“. časopisů“ a „získejte lékárničku“.

Tým také provozoval Clio v reálném čase na čtyřnožném robotu. Když robot prozkoumával kancelářskou budovu, Clio identifikoval a zmapoval pouze ty části scény, které souvisely s robotovými úkoly (jako je získání psí hračky a ignorování hromady kancelářských potřeb), což robotovi umožnilo uchopit objekty zájmu.

Clio je pojmenováno podle řecké múzy historie pro svou schopnost identifikovat a zapamatovat si pouze prvky, které jsou pro daný úkol důležité. Vědci předpokládají, že Clio by bylo užitečné v mnoha situacích a prostředích, ve kterých by robot musel rychle zkoumat a chápat své okolí v kontextu zadaného úkolu.

„Vyhledávání a záchrana je motivující aplikací pro tuto práci, ale Clio může také pohánět domácí roboty a roboty pracující v továrně po boku lidí,“ říká Luca Carlone, docent na katedře letectví a kosmonautiky (AeroAstro) na MIT, hlavní řešitel Laboratoř pro informační a rozhodovací systémy (LIDS) a ředitel laboratoře MIT SPARK. “Skutečně jde o to pomoci robotovi porozumět prostředí a tomu, co si musí pamatovat, aby mohl plnit své poslání.”

Tým podrobně popisuje své výsledky ve studii, která se dnes objevila v časopise Robotika a automatizace dopisy. Mezi spoluautory Carlone patří členové SPARK Lab: Dominic Maggio, Yun Chang, Nathan Hughes a Lukas Schmid; a členové MIT Lincoln Laboratory: Matthew Trang, Dan Griffith, Carlyn Dougherty a Eric Cristofalo.

Otevřená pole

Obrovský pokrok v oblasti počítačového vidění a zpracování přirozeného jazyka umožnil robotům identifikovat objekty v jejich okolí. Ale až donedávna to roboti uměli pouze v „uzavřených“ scénářích, kde jsou naprogramováni tak, aby pracovali v pečlivě upraveném a kontrolovaném prostředí s konečným počtem objektů, které byl robot předem naučen rozpoznávat.

V posledních letech vědci zvolili „otevřenější“ přístup, aby umožnili robotům rozpoznávat objekty v realističtějším prostředí. V oblasti rozpoznávání otevřené sady vědci využili nástroje pro hluboké učení k vytvoření neuronových sítí, které dokážou zpracovat miliardy obrázků z internetu spolu s přidruženým textem každého obrázku (jako je například přítelův obrázek psa na Facebooku s titulkem „Seznamte se moje nové štěně!”).

Z milionů párů obrázek-text se neuronová síť učí a poté identifikuje ty segmenty ve scéně, které jsou charakteristické pro určité termíny, jako je pes. Robot pak může použít tuto neuronovou síť, aby objevil psa ve zcela nové scéně.

Výzvou však stále zůstává, jak analyzovat scénu užitečným způsobem, který je relevantní pro konkrétní úkol.

„Typické metody vyberou určitou libovolnou, pevnou úroveň granularity pro určení, jak spojit segmenty scény do toho, co můžete považovat za jeden ‚objekt‘,“ říká Maggio. „Nicméně granularita toho, čemu říkáte ‚objekt‘, ve skutečnosti souvisí s tím, co má robot dělat. Pokud je tato granularita opravena bez zohlednění úkolů, pak může robot skončit s mapou, která není pro jeho úkoly užitečná.“

Informační úzký profil

S Cliem se tým MIT snažil umožnit robotům interpretovat své okolí s takovou úrovní granularity, kterou lze automaticky vyladit podle aktuálních úkolů.

Pokud například dostaneme za úkol přesunout stoh knih na polici, robot by měl být schopen určit, že celý stoh knih je objektem relevantním pro daný úkol. Podobně, pokud bylo úkolem přesunout pouze zelenou knihu ze zbytku hromádky, robot by měl rozlišit zelenou knihu jako jediný cílový objekt a ignorovat zbytek scény – včetně ostatních knih v hromádce.

Přístup týmu kombinuje nejmodernější počítačové vidění a velké jazykové modely zahrnující neuronové sítě, které vytvářejí spojení mezi miliony obrázků s otevřeným zdrojovým kódem a sémantickým textem. Zahrnují také mapovací nástroje, které automaticky rozdělují obraz na mnoho malých segmentů, které lze přivádět do neuronové sítě a určit, zda jsou určité segmenty sémanticky podobné. Výzkumníci pak využívají myšlenku klasické informační teorie nazývanou „informační úzké hrdlo“, kterou používají ke kompresi řady segmentů obrazu způsobem, který vybírá a ukládá segmenty, které jsou sémanticky nejrelevantnější pro daný úkol.

„Například řekněme, že na scéně je hromada knih a mým úkolem je jen získat zelenou knihu. V takovém případě protlačíme všechny tyto informace o scéně tímto úzkým hrdlem a skončíme se shlukem segmentů, které představují zelenou knihu,“ vysvětluje Maggio. „Všechny ostatní segmenty, které nejsou relevantní, se seskupí do shluku, který můžeme jednoduše odstranit. A zbývá nám objekt se správnou granularitou, která je potřebná k podpoře mého úkolu.“

Výzkumníci demonstrovali Clio v různých reálných prostředích.

„Mysleli jsme si, že by to byl opravdu nesmyslný experiment, kdybychom Clio provozovali v mém bytě, kde jsem předtím neprováděl žádné čištění,“ říká Maggio.

Tým sestavil seznam úkolů v přirozeném jazyce, jako je „přesunout hromadu oblečení“, a poté aplikoval Clio na obrázky Maggiova zaneřáděného bytu. V těchto případech bylo Clio schopno rychle segmentovat scény bytu a napájet segmenty pomocí algoritmu Information Bottleneck, aby identifikovalo ty segmenty, které tvořily hromadu oblečení.

Také provozovali Clio na čtyřnožném robotu Spot společnosti Boston Dynamic. Dali robotovi seznam úkolů, které má splnit, a když robot prozkoumával a mapoval vnitřek kancelářské budovy, Clio běželo v reálném čase na palubním počítači připojeném k Spotu, aby vybralo segmenty v mapovaných scénách, které vizuálně souvisí s daným úkolem. Metoda vygenerovala překryvnou mapu zobrazující pouze cílové objekty, kterou pak robot použil k přiblížení se k identifikovaným objektům a fyzickému dokončení úkolu.

„Spustit Clio v reálném čase bylo pro tým velkým úspěchem,“ říká Maggio. “Spousta předchozí práce může trvat několik hodin.”

V budoucnu tým plánuje přizpůsobit Clio tak, aby bylo schopno zpracovávat úkoly na vyšší úrovni a stavět na nedávných pokrokech ve fotorealistickém zobrazení vizuální scény.

“Stále zadáváme Cliu úkoly, které jsou poněkud specifické, jako je ‘najít balíček karet’,” říká Maggio. „Pro pátrání a záchranu mu musíte zadat více úkolů na vysoké úrovni, jako je ‚najít přeživší‘ nebo ‚obnovit napájení‘. Chceme se tedy dostat k porozumění tomu, jak plnit složitější úkoly, na lidské úrovni.“

Tento výzkum byl částečně podporován americkou National Science Foundation, Swiss National Science Foundation, MIT Lincoln Laboratory, US Office of Naval Research a US Army Research Lab Distributed and Collaborative Intelligent Systems and Technology Collaborative Research Alliance.



Source link

Podobné příspěvky