Datavetenskapens eget årliga nobelpris – Turingpriset – går till radarparet Andrew Barto och Richard Sutton, pionjärer inom reinforcement learning (RL), en idé som bland annat används för att programmera de artificiella neuronnät som används av dagens populära chattbottar.
Förstärkningsinlärning innebär att inlärning sker genom att AI-algoritmen får återkoppling på sitt slutresultat – exempelvis att en spelalgoritm vann eller förlorade, eller att en chattbott gav ett bra eller dåligt svar enligt någons bedömning.
De första praktiska framstegen inom RL kom i början av 1980-talet – från årets Turingpristagare. De är även kända för sin lärobok i ämnet.
– I en serie artiklar från 1980-talet introducerade Barto och Sutton de grundläggande idéerna, byggde de matematiska grunderna och utvecklade viktiga algoritmer för förstärkningsinlärning – en av de mest betydelsefulla metoderna för att skapa intelligenta system, skriver Association for Computing Machinery (ACM) i sin motivering.
Turingpriset är uppkallat efter datorpionjären och AI-filosofen Alan Turing som själv föreslog RL som träningsmetod för chattbottar i den berömda artikel från 1950 där han ställde frågan om det var rimligt att säga att chattbottar ”tänker”?
– Vad vi vill ha är en maskin som kan lära av erfarenhet, har Alan Turing en gång sagt, och enligt ACM:s motivering är RL ett svar på den utmaningen.
Det här är det andra Turingpris som går till maskininlärning. Det första gavs år 2018 till tre grundare av området artificiella neuronnät (ANN).
Allt hänger ihop. Om du kombinerar dessa två Turingpris – ANN och RL – ramlar det bland mycket annat ut en algoritm som heter Alpha Go. Den blev år 2017 världsmästare i det kinesiska brädspelet Go och utvecklades under ledning av Demis Hassabis.
Som i sin tur mottog fjolårets Nobelpris i kemi – därför att samma kombination kan användas för att förutse proteiners tredimensionella struktur. Även ett Nobelpris i fysik gick i fjol till maskininlärning – en indikator på hur hett området är.
Några tillämpningar för RL är chipdesign, protokoll för övervakning av nätverksbelastning, internetannonsering, supply chain-optimering och matrismultiplikation.
Inom robotmotorik har RL visat sig kunna fungera även om den äger rum i en simulering.
Apropos nobelpris skulle RL teoretiskt även kunna få ett nobelpris i biologi eftersom vissa RL-algoritmer enligt viss forskning – bland annat av Andrew Barto – ger de bästa förklaringarna till en rad observationer av dopaminsystemet i den mänskliga hjärnan.
Andrew Barto och hans tidigare doktorand Richard Sutton har sina akademiska hem på universiteten i Massachusetts respektive Alberta, båda USA.
Prissumman är en miljon dollar. Google sponsrar.