AI pareidolia: Dokážou stroje rozpoznat tváře v neživých předmětech? | Zprávy MIT

AI pareidolia: Dokážou stroje rozpoznat tváře v neživých předmětech? | Zprávy MIT


V roce 1994 objevila floridská návrhářka šperků Diana Duyser to, co považovala za obraz Panny Marie v grilovaném sýrovém sendviči, který uchovala a později vydražila za 28 000 dolarů. Ale jak moc skutečně rozumíme pareidolii, fenoménu vidění tváří a vzorů v předmětech, když tam ve skutečnosti nejsou?

Nový studie z MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) se ponoří do tohoto fenoménu a představuje rozsáhlou, lidmi označenou datovou sadu 5 000 pareidických snímků, které daleko převyšují předchozí sbírky. Pomocí tohoto souboru dat tým objevil několik překvapivých výsledků o rozdílech mezi lidským a strojovým vnímáním a o tom, jak schopnost vidět tváře v plátku toastu mohla zachránit životy vašich vzdálených příbuzných.

“Face pareidolia dlouho fascinovala psychology, ale v komunitě počítačového vidění byla z velké části neprozkoumaná,” ​​říká Mark Hamilton, doktorand MIT v oboru elektrotechniky a informatiky, pobočka CSAIL a hlavní výzkumník této práce. „Chtěli jsme vytvořit zdroj, který by nám pomohl pochopit, jak lidé i systémy zpracovávají tyto iluzorní tváře.“

Co tedy všechny tyto falešné tváře odhalily? Za prvé se zdá, že modely umělé inteligence nerozeznávají pareidální tváře jako my. Překvapivě tým zjistil, že až když trénovali algoritmy pro rozpoznávání zvířecích tváří, stali se výrazně lepšími v detekci pareidických tváří. Toto neočekávané spojení naznačuje možné evoluční spojení mezi naší schopností rozeznat zvířecí tváře – zásadní pro přežití – a naší tendencí vidět tváře v neživých předmětech. „Zdá se, že výsledek, jako je tento, naznačuje, že pareidolie nemusí pocházet z lidského sociálního chování, ale z něčeho hlubšího: jako je rychlé zpozorování číhajícího tygra nebo identifikace, kterým směrem se dívá jelen, aby naši prapředkové mohli lovit,“ říká Hamilton.

Řada pěti fotografií zvířecích tváří na pěti fotografiích neživých objektů, které vypadají jako tváře

Dalším zajímavým objevem je to, co vědci nazývají „Zóna zlatovců v Pareidolii“, třída obrázků, kde se pareidolie s největší pravděpodobností vyskytuje. „Existuje specifický rozsah vizuální složitosti, kde lidé i stroje s největší pravděpodobností vnímají tváře v předmětech bez tváře,“ říká William T. Freeman, profesor elektrotechniky a informatiky na MIT a hlavní řešitel projektu. „Příliš jednoduché a na vytvoření obličeje není dostatek detailů. Příliš složité a stává se z toho vizuální šum.“

Aby to tým odhalil, vyvinul rovnici, která modeluje, jak lidé a algoritmy detekují iluzorní tváře. Při analýze této rovnice našli jasný „pareidický vrchol“, kde je pravděpodobnost, že uvidí tváře, nejvyšší, což odpovídá obrázkům, které mají „právě správnou míru“ složitosti. Tato předpovězená „zóna Zlatovlásky“ byla poté ověřena v testech se skutečnými lidskými subjekty a systémy detekce obličejů AI.

3 fotky mraků nad 3 fotky ovocného koláče. Levá fotografie každého z nich je „Příliš jednoduchá“ na to, aby vnímala obličej; prostřední fotka je „tak akorát“ a poslední fotka je „příliš složitá“."

Tento nový datový soubor, “Tváře ve věcech“ převyšuje ty z předchozích studií, které obvykle používaly pouze 20–30 podnětů. Tato škála umožnila výzkumníkům prozkoumat, jak se chovaly nejmodernější algoritmy detekce obličejů po jemném doladění na pareidických obličejích, což ukazuje, že tyto algoritmy lze nejen upravit tak, aby detekovaly tyto obličeje, ale že mohou také fungovat jako křemík. zastupování našeho vlastního mozku, což týmu umožňuje klást a odpovídat na otázky o původu pareidolské detekce obličeje, které je nemožné položit u lidí.

K sestavení této datové sady tým vybral přibližně 20 000 kandidátských snímků z datové sady LAION-5B, které byly poté pečlivě označeny a posouzeny lidskými anotátory. Tento proces zahrnoval kreslení ohraničujících rámečků kolem vnímaných tváří a zodpovězení podrobných otázek o každé tváři, jako je vnímaná emoce, věk a zda byla tvář náhodná nebo úmyslná. „Shromáždit a anotovat tisíce snímků byl obrovský úkol,“ říká Hamilton. “Velká část datového souboru vděčí za svou existenci mé matce,” vysloužilé bankéře, “která strávila nespočet hodin láskyplným označováním obrázků pro naši analýzu.”

Studie má také potenciální využití při zlepšování systémů detekce obličejů snížením falešných poplachů, což by mohlo mít důsledky pro oblasti, jako jsou samořídící auta, interakce člověka s počítačem a robotika. Soubor dat a modely by také mohly pomoci oblastem, jako je produktový design, kde by porozumění a ovládání pareidolie mohlo vytvořit lepší produkty. „Představte si, že byste mohli automaticky vyladit design auta nebo dětské hračky tak, aby vypadala přátelštěji, nebo zajistit, aby lékařská pomůcka nepůsobila nechtěně jako hrozba,“ říká Hamilton.

„Je fascinující, jak lidé instinktivně interpretují neživé předměty s lidskými vlastnostmi. Když se například podíváte na elektrickou zásuvku, můžete si okamžitě představit, jak zpívá, a dokonce si dokážete představit, jak by „hýbala rty“. Algoritmy však tyto kreslené obličeje přirozeně nerozpoznají stejným způsobem jako my,“ říká Hamilton. „To vyvolává zajímavé otázky: Co vysvětluje tento rozdíl mezi lidským vnímáním a algoritmickou interpretací? Je pareidolie prospěšná nebo škodlivá? Proč algoritmy nezažívají tento efekt jako my? Tyto otázky podnítily naše zkoumání, protože tento klasický psychologický fenomén u lidí nebyl v algoritmech důkladně prozkoumán.”

Zatímco se výzkumníci chystají sdílet svůj datový soubor s vědeckou komunitou, už se dívají dopředu. Budoucí práce může zahrnovat trénování modelů vizuálního jazyka, aby porozuměly a popsaly pareidální tváře, což potenciálně povede k systémům umělé inteligence, které se dokážou zapojit do vizuálních podnětů více lidskými způsoby.

„To je nádherný papír! Baví mě to číst a nutí mě to přemýšlet. Hamilton a kol. navrhnout vzrušující otázku: Proč ve věcech vidíme tváře? říká Pietro Perona, profesor elektrotechniky Allen E. Puckett na Caltech, který se na práci nepodílel. „Jak zdůrazňují, poučení z příkladů, včetně zvířecích tváří, je jen poloviční cestou k vysvětlení jevu. Vsadím se, že přemýšlení o této otázce nás naučí něco důležitého o tom, jak se náš vizuální systém zobecňuje nad rámec školení, které dostává během života.“

Mezi spoluautory Hamiltona a Freemana patří Simon Stent, vědecký pracovník výzkumného týmu Toyota Research Institute; Ruth Rosenholtz, hlavní vědecká pracovnice na katedře mozkových a kognitivních věd, vědecká pracovnice NVIDIA a bývalá členka CSAIL; a postdoktorand přidružených společností CSAIL Vasha DuTell, Anne Harrington MEng ’23 a vědecká pracovnice Jennifer Corbett. Jejich práce byla částečně podporována National Science Foundation a CSAIL Mentored Opportunities in Research (METEOR) Fellowship, přičemž byla sponzorována výzkumnou laboratoří letectva Spojených států a akcelerátorem umělé inteligence letectva Spojených států amerických. MIT SuperCloud a Lincoln Laboratory Supercomputing Center poskytly zdroje HPC pro výsledky výzkumníků.

Tato práce je tento týden prezentována na Evropské konferenci o počítačovém vidění.



Source link

Podobné příspěvky