Redan innan träningen av ett artificiellt neuronnät inleds, har ödet bestämt vilket delnät som kommer att lösa det aktuella problemet och vilket delnät som kommer att kunna klippas bort och kastas. Det har två MIT-doktorander visat.
Resultatet kom som en överraskning. Det demonstrerar att det fortfarande finns kunskapsluckor på mycket grundläggande nivå i hur maskininlärning fungerar.
Djupa neuronnät är den typ av maskininlärning som som ligger bakom det extrema intresse som finns just nu kring artificiell intelligens. De ”tränas” för olika uppgifter i en beräkningsintensiv iterativ process. MIT-doktoranderna visar att redan innan processen startar är det delvis redan bestämt hur den kommer att sluta.
Ödet beseglas när nätets parametrar, vikterna, får sina slumpmässiga startvärden. Vissa viktkombinationer visar sig vara ”vinstlotter”, som forskarna kallar dem, som under träningen kommer att konvergera mot användbara delnät.
Att neuronnät ofta kan knipsas ner i storlek efter att de är färdigtränade, är känt sedan 1990. Vissa kopplingar eller vissa neuroner visar sig efter träningen vara redundanta och neuronnätet kan lösa sin klassificeringsuppgift – som att känna igen handskrivna siffror eller bilder av katter – lika bra utan dem.
Så de klipps bort så att nätet blir mindre och snabbare. Det kallas pruning, beskärning. Kvar finns ett delnät av det kompletta nät som tränades. Delnätet får jämförbara resultat på de bilder som används för utvärdering, men har krympts till en femtedel, en tiondel eller kanske till och med en hundradel av det kompletta nätet.
Att detta delnät bestämdes redan vid den slumpmässiga initialiseringen bevisar forskarna genom att göra om hela träningen när den är klar. Men denna gång bara på det vinnande delnätet.
Nät lär sig generaliseraMIT-forskarna undersökte så kallade konvolutionsnät som används för att identifiera innehåll i bilder. Ett färdigtränat nät tar digitaliserade bilder som indata och spottar ur sig gissningar om vad bilderna föreställer. Träningen av nätet sker genom att nätet får se exempel på bilder där det redan är känt vad de föreställer. Magin som till slut händer efter en lång träning är att nätet på något mystiskt vis lär sig något generellt om vad som kännetecknar en bild av en katt eller siffran ”2”. Det gör att nätet till slut kan känna igen bilder av katter och siffror som inte finns träningssetet, utan bara i utvärderingssetet. |
Återigen får de fram bra neuronnät – bättre till och med, och på kortare tid. Men enbart om de återanvänder vinstlotten – det vill säga inte initierar vikterna slumpmässigt denna gång, utan med samma värden som sist.
Det är inte så att dessa vikter helt enkelt råkade bli ganska rätt i initieringen. Det är en bra gissning, men forskarna har falsifierat den – de ändras tvärtom mer än genomsnittliga vikter under träningen.
Forskarnas resultat gäller förstås med reservationer. De jobbade med små problemvolymer och med små neuronnät, så det är för sådana vi säkert kan säga att resultaten gäller.
MIT-doktoranderna är långtifrån ensamma om att forska om effektiviseringar kring neuronnätsbeskärning. Det finns många idéer om hur döda grenar till exempel ska kunna identifieras tidigt under träningen och beskäras eller ominititaliseras.
MIT-doktoranderna får extra uppmärksamhet genom att MIT:s egen populärvetenskapliga tidskrift Technology Review har skrivit en hyllningsartikel om dem. Men hela beskärningskollektivet kan ta åt sig av äran av den hyllningen.
Det finns inget sätt att direkt omsätta MIT-forskarnas spaning i effektivare metoder redan idag – det är ju först när du tränat färdigt nätet som du vet vilket delnät som drog vinstlotten, och då är det ju redan tränat.
Men forskarna kan ha hittat en pusselbit till att göra den beräkningstunga träningen av neuronnät lättare i framtiden. De bidrar med en observation kring träningens natur som från och med nu kan bli vägledande.
Andra forskare redan börjat spåna vidare kring ”vinstlottshypotesen” – att resultat gäller generellt även för större problem och större nät.