DEEP LEARNING:
Allt om tekniken som revolutionerar AI-området
En liten envis skara forskare vägrade släppa idén om att bygga smarta algoritmer med hjärnan som förebild. Till sist fick de upprättelse med besked – konkurrerande lösningar kastas idag i papperskorgen och efterfrågan exploderar på så kallad Deep Learning för att analysera mönster i sensordata.SÅ FUNKAR DET |
Deep Learning görs i en modell som kallas artificiella neuronnät (ANN) och är inspirerad av hur hjärnans celler arbetar. Ett första lager neuroner matas med indata, som kan vara bildpunkter, ljudsamples eller andra råa sensordata. Lagret lär sig – i bildfallet – att upptäcka korta linjesegment i olika orienteringar. Dessa blir sedan pusselbitar för nästa lager. Hierarkiskt byggs sedan allt komplexare objekt upp – från öga, handtag och blad i ett lager, till ansikte, gren och dörr i ett senare lager och till sist människa, träd, hus i det sista lagret. Nätets parametrar trimmas via inlärning där referensobjekt ges som indata. Antingen är objekten märkta med sitt innehåll i förväg eller så upptäcker nätet självt att de naturligt sönderfaller i olika kategorier och skapar dessa. En människa kan då eventuellt hjälpa till och puffa nätet i rätt riktning genom att godkänna förslag på kategorier. |
Det här är DL-nätet som år 2012 sopade banan med allt motstånd i tävlingen Imagenet som går ut på att känna igen olika föremål i bilder. Klicka för att förstora bilder! |
Här har forskarna visualiserat och förstärkt de mönster som ett av de första neuronlagren ser i bilden. |
HAN DRIVER TRÄFFPUNKT FÖR DEEP LEARNING KTH-doktoranden Roelof Pieters har tagit på sig att starta en träffpunkt i Stockholm för Deep Learning. Mötena riktar sig både till nyfikna nybörjare och experter. – Jag startade gruppen för att hjälpa upp medvetenheten i Sverige om Deep learning. Sverige har hamnat på efterkälken och behöver snabbt komma in i matchen. – Här finns hög teknisk kompetens och ledande forskningscenter, men Deep learning-området har inte tagit fart. Varför är området viktigt? – Det har en stor potential att leda till tekniska genombrott och bli disruptivt inom alla möjliga olika branscher. De här modellerna är state of the art inom maskininlärning – det finns inget bättre – de vinner alla tävlingar. Att Deep learning visat sig så överraskande användbar har gjort att den snabbt adopterats inom industrin. – Förr brukade det ta ett decennium innan resultat från akademin nådde ut till industrin, men med Deep learning är det nästan tvärtom. De senaste forskningsresultaten kan lika gärna komma från Facebook, Baidu eller Google. De dammsuger universiteten efter fler att anställa. – En bra student inom machine learning kan lätt få jobb, särskilt om han är kunnig inom neurala nät och Deep learning. Meetup:en har drygt 300 medlemmar. De är forskare, studenter och företagare. Här finns alla från de som forskar om eller redan använder Deep Learning, till företagare som hört att ämnet är hett och vill veta om det är relevant för deras bransch. Roelof Pieters, 31 år, har en bakgrund inom startups och som konsult, och har vägen till doktorshatten ganska väl utstakad via projekt inom Deep Learning som han varit inblandad i. Det som återstår är att arbeta om resultaten till forskning. Han arbetar fortfarande som konsult vilket finansierar – och lite grand också sinkar – hans studier. Hans DL-projekt i Sverige och utomlands har bland annat handlat om grafbaserade söksystem, om att identifiera musikgengrer via akustisk modellering, och om att klassificera mode. Hans forskarstudier handlar om modellering av naturliga språk och om att blanda olika modaliteter, som text, ljud och bild i samma DL-system för att exempelvis kunna översätta mellan dem. I grunden är han antropolog – datavetenskapen kom senare. Han säger sig ha ”en passion” för deep learning – Det är fortfarande ett såpass nytt område, det finns fortfarande så mycket kvar att göra. Allting som har en sensor producerar data som kan analyseras, säger Roelof Pieters. |
Det du läser upp och det datorn tecknar ner är överraskande ofta samma sak. Denna mening skrev jag exempelvis genom att diktera den med rösten för min Mac. Röstsökning på Google fungerar också klart godkänt.
Tekniken som lyft kvaliteten på rösttolkning kallas Deep learning (DL).
Också Apple Siri och Microsoft Cortana använder eller kommer snart att börja använda DL. Det är en teknik som håller på att ersätta all annan teknik inom det område inom Artificiell intelligens som kallas maskininlärning.
Genombrottet för rösttolkning kom 2009. Nästa skräll kom inom området bildanalys några år senare.
En databas kallad Imagenet med 1,2 miljoner bilder i tusen kategorier, används som benchmark för automatisk bildtolkning. År 2010 var felfrekvensen 28 procent för den bästa algoritmen. År 2012 utklassade Deep learning all konkurrens med en felfrekvens på bara 15 procent.
Och det slutade inte där. Idag har både Google och Baidus DL-nät nått under fem procent. Det är färre fel än människor gör på samma databas.
Den tredje tillämpningen som hunnit bli stor för DL är språkbehandling, exempelvis automatöversättning. Microsofts telefoniprogram Skype är ett imponerande exempel. Det kan direkttolka mellan sex världsspråk. Det tolkar röst till text, översätter texten och läser upp den, med hjälp av Deep learning.
Twitter, Yahoo, Netflix, Spotify, IBM, Adobe, Flickr och Uber är ytterligare företag som investerar tungt i Deep learning – man köper startups, anställer folk, och bedriver forskning och utveckling.
Google använder Deep learning i runt hundra utvecklingsgrupper, bland annat för att automatiskt tagga bilder med vad de innehåller.
Facebooks nya DL-algoritm Deepface sägs kunna identifiera ansikten i bilder med 97 procents noggrannhet.
IBM har nyss köpt en miljard medicinska bilder, som man ska analysera via Deep learning och sedan ge till sin AI-dator Watson, som är stark inom annan AI-teknik. Tillsammans ska de ställa diagnoser.
Inom förarassistanssystem tycks DL vara på väg att ta över den bildtolkning som upptäcker fotgängare, bilar, sidolinjer och så vidare. Ett tecken på det är att Mobileye, en av de ledande chipstillverkarna, växlar till Deep learning.
Vägen till dagens succé för Deep learning har varit lång och kantat av bakslag.
Mot slutet av 90-talet hade idén att bygga smarta algoritmer inspirerade av människohjärnan börjat uppfattas som närmast lite pinsamma. Området var pestflaggat i tidskrifter och anslagen torkade ut.
Skepsisen var ärligt talat välmotiverad. Åren gick och ett fåtal tappra fortsatte lova guld och gröna skogar. Men resultaten fortsatte att utebli.
Man undrade varför. Var hjärnan ett villospår? Var det något fel på modellerna?
Eller jobbade man kanske bara i för liten skala? Biologiska hjärnor är stora och bearbetar gigantiska datavolymer. Skulle genombrottet komma om man helt enkelt kunde jobba lite större?
Jo, faktiskt. Så enkelt var det.
Webben växte och företag som Google och Facebook byggde upp enorma bild- och videobibliotek att experimentera med. Ur dem kom till slut resultaten.
Historieskrivningen om vem som egentligen gjorde vad har börjat ifrågasättas, men man brukar peka ut tre kollegor som det tappra gäng som aldrig tappade tron på artificiella neuronnät: Geoffrey Hinton, Yann LeCun och Yoshua Bengio.
Idag har de miljondollarlöner på Google, Facebook, respektive IBM. Det pågår en formlig brain-drain från akademi till industri inom området mönsterigenkänning.
En del gamla tumregler för artificiella neuronnät har sedermera ställts på huvudet, men i grunden är modellerna och metoderna inom DL desamma som under den så kallade ”AI-vintern” på nittiotalet.
De nät som ger resultat är stora, med sex eller fler lager, upp till 20 idag, därav namnet Deep learning. Och de kan ha hundramiljontals parametrar som ska trimmas när näten tränas för sina uppgifter.
DEEP LEARNING BYGGER SYNVILLA Genom att leka med det tränade nätets parametrar kan man visualisera nätets hypoteser om vad bilden innehåller. Här bad man nätet leta efter byggnader i en bild av träd. Klicka för större bild! |
Deepface har som exempel nio lager neuroner med 120 miljoner parametrar, och tränades upp på fyra miljoner referensbilder.
Grafikkretsar är just nu den populäraste datorplattformen för träning och Nvidia anpassar Pascal, sin nästa generation GPU, till DL bland annat genom stöd för 16-bitarsaritmetik vilket skapar plats för dubbelt så stora neuronnät på chipet.
Träningen av ett DL-nät kräver mycket resurser, men användningen av det färdiga nätet är i jämförelse gratis, särskilt med hårdvarustöd. Intels lilla knappdator Quark för wearables innehåller ett neuralt nät i hårdvara för mönsterigenkänning, och vi kommer säkerligen att få se fler systemkretsar med inbyggda neuronnät.
Deep learning ger inte bara överlägsna resultat, utan är också mycket enklare att använda än klassiska nauronnätsmetoder. De tar rådata som indata och hittar mönster på egen hand, medan klassiska algoritmer krävde en expert som gjorde förberedande analyser med andra metoder, för dra ner dimensionen på problemet till en hanterbar nivå.
Det var detta moment som brukade vara den stora utmaningen inom mönsterigenkänning. Ett exempel på sådan datamassage är att dela upp det talade ljudet i fonem. I DL-algoritmerna sker fonemuppdelningen automatisk , och resultatet blir dessutom mycket bättre än de gamla handgjorda analyserna.
Likaså brukade man inom maskininlärning använda separata bilddatabaser som referens för att träna algoritmer att känna igen olika typer av objekt. Med Deep learning kan man använda en och samma generella bilddatabas. Resultaten blir, återigen, mycket bättre.
TILLÄMPNINGAR DÄR DEEP LEARNING ANVÄNDS ELLER UTFORSKAS • Stoppa epileptiska anfall genom att detektera att de är på väg • Identifiera hudcancer och lungsjukdomar ur bilder • Klassificera mutationer kopplade till olika cancerformer • Konstruera mediciner • Gissa vilka kemikalier som är giftiga • Analysera musik • Upptäcka datorvirus • Tolka bokslut • Identifiera enskilda elförbrukare efter deras inverkan på elmätaren • Styra robotar utifrån videodata • Tolka gester • Spela 22 gamla arkadspel, bland annat Breakout, mycket bättre än du • Aautomatisera sömnstadieanalys • Identifiera bakterier med hjälp av elektronisk näsa • Klassificera terräng och infrastruktur från satellitbild |