DeepMind AI získává stříbrnou medaili na Mezinárodní matematické olympiádě
Umělá inteligence od Google DeepMind dosáhla na letošní Mezinárodní matematické olympiádě (IMO) stříbrné medaile, což je poprvé, co se nějaká umělá inteligence dostala na stupně vítězů.
IMO je považována za nejprestižnější světovou soutěž pro mladé matematiky. Správné zodpovězení testových otázek vyžaduje matematické schopnosti, které systémy AI obvykle postrádají.
V lednu Google DeepMind předvedl AlphaGeometrysystém AI, který by mohl odpovědět na některé otázky geometrie IMO stejně jako lidé. Toto však nebylo z živé soutěže a nemohlo odpovědět na otázky z jiných matematických disciplín, jako je teorie čísel, algebra a kombinatorika, které jsou nezbytné k získání medaile IMO.
Google DeepMind nyní vydal novou AI s názvem AlphaProof, která dokáže vyřešit širší škálu matematických problémů, a vylepšenou verzi AlphaGeometry, která dokáže vyřešit více geometrických otázek.
Když tým testoval oba systémy společně na letošních IMO otázkách, odpověděli správně na čtyři ze šesti otázek, což jim dalo skóre 28 z možných 42 bodů. To stačilo na zisk stříbrné medaile a pouhý bod pod letošní hranici zlaté medaile.
Na soutěži v Bath ve Spojeném království minulý týden získalo 58 účastníků zlatou medaili a 123 stříbrnou medaili.
„Všichni si velmi dobře uvědomujeme, že umělá inteligence bude nakonec lepší než lidé při řešení většiny matematických problémů, ale rychlost, jakou se umělá inteligence zlepšuje, je dechberoucí,“ říká Gregor Dolinářprezident IMO. “To, že před pár dny chyběla zlatá medaile na IMO 2024 jen o jeden bod, je opravdu působivé.”
Na tiskové konferenci, Timothy Gowers na University of Cambridge, který pomáhal označit odpovědi AlphaProof, uvedl, že výkon AI byl překvapivý a zdálo se, že najde „magické klíče“ k zodpovězení problémů podobným způsobem jako lidé. “Myslel jsem si, že tyto magické klíče budou pravděpodobně o něco víc než to, co by mohly udělat, takže to bylo docela překvapení v jednom nebo dvou případech, kdy program tyto klíče skutečně našel,” řekl Gowers.
AlphaProof funguje podobně jako předchozí AI Google DeepMind, které to umí porazit nejlepší lidi v šachu a Jít. Všechny tyto umělé inteligence spoléhají na metodu pokus-omyl zvanou posilovací učení, kdy si systém najde svůj vlastní způsob, jak vyřešit problém během mnoha pokusů. Tato metoda však vyžaduje velkou sadu problémů napsaných v jazyce, kterému AI může porozumět a ověřit jej, zatímco většina problémů podobných IMO je napsána v angličtině.
Chcete-li to obejít, Tomáš Hubert v DeepMind a jeho kolegové použili Google Gemini AI, jazykový model podobný tomu, který pohání ChatGPT, k překladu těchto problémů do programovacího jazyka zvaného Lean, aby se AI mohla naučit, jak je řešit.
„Na začátku bude schopen řešit možná ty nejjednodušší problémy a učit se z řešení těchto jednodušších problémů útočit na těžší a těžší problémy,“ řekl Hubert na tiskové konferenci. Své odpovědi také vytváří v Lean, takže je lze okamžitě ověřit jako správné.
Zatímco výkon AlphaProof je působivý, pracuje pomalu a nalezení řešení trvá až tři dny, namísto 4,5 hodiny na tři otázky, které mají konkurenti povoleno. Také nedokázal odpovědět na obě otázky o kombinatorice, což je studium počítání a uspořádání čísel. „Stále pracujeme na tom, abychom pochopili, proč tomu tak je, což nás snad povede ke zlepšení systému,“ říká Alex Davies ve službě Google DeepMind.
Není také jasné, jak AlphaProof dospívá ke svým odpovědím nebo zda používá stejný druh matematické intuice jako lidé, řekl Gowers, ale jeho schopnost překládat důkazy z Lean do angličtiny usnadňuje kontrolu, zda jsou správné.
Výsledek je působivý a významný milník, říká Geordie Williamson na univerzitě v Sydney v Austrálii. “Existovalo mnoho předchozích pokusů o posílení učení na formálních důkazech a žádný neměl velký úspěch.”
Zatímco systém jako AlphaProof by mohl být užitečný pro pracující matematiky při vývoji důkazů, zjevně nemůže pomoci s identifikací problémů, které je třeba vyřešit a na kterých pracovat, což zabírá velkou část času výzkumníků, říká. Yang-Hui He v Londýnském institutu pro matematické vědy.
Hubert řekl, že jeho tým doufá, že AlphaProof bude schopen pomoci zlepšit velké jazykové modely Google, jako je Gemini, snížením nesprávných odpovědí.
Obchodní společnost XTX Markets nabídla cenu 5 milionů dolarů – nazývanou AI Matematická olympiáda – za umělou inteligenci schopnou dosáhnout zlaté medaile na IMO, ale AlphaProof není způsobilá, protože není veřejně dostupná. „Doufáme, že pokroky DeepMind inspirují další týmy, aby se přihlásily do ceny AIMO, a samozřejmě bychom uvítali veřejnou účast od samotné DeepMind,“ říká Alex Gerko z XTX Markets.
témata: