Signalkärna optimerad för AI – Elektroniktidningen

Israeliska Cevas nya signalkärna XM6 är tre gånger snabbare på bildbehandling än föregångaren XM4, och hela åtta gånger snabbare på AI-tekniken deep learning.

Liksom grafikchipstillverkaren Nvidia just nu lägger stor vikt vid att optimera sina gpu:er för deep learning, gör Ceva detsamma med sina dsp-kärnor. Det är den användningen av den nya signalkärnan XM6 som är det klart mest framträdande i dess marknadsföringsmaterial.

Nästan alla de tillämpningar som Ceva föreslår kräver artificiell intelligens: adas-system, drönare, robotar, geststyrning, smart videoövervakning, videoanalys, utökad verklighet och ögonföljning.

Tillämpningsområden för XM6. Klicka för större bild!

Inom AI-området mönsterigenkänning har tekniken deep learning sopat banan med alla konkurrerande metoder under de senaste åren. Därför ser vi allt mer kisel offras på skräddarsytt stöd. Det är den trenden som både Nvidia och Ceva rider på.

Ceva har idag en stark position som leverantör av ip-kärnor för signalbehandling. Intel, Samsung och ST är några av kunderna. XM6:s föregångare XM4 och MM3101 har 25 design wins.

Medan Nvidias grafikkort för deep learning typiskt sitter i strömslukande rackmonerade bestar i serverhallar, är XM6 avsedd att integreras i systemkretsar för inbyggda system, som fordon, övervakningskameror och telefoner.

Ceva jämför sig med ett ”ledande gpu-baserat inbyggt system för datorseende och deep learning” och finner att XM6 ger 25 gånger högre prestanda per watt och att det är fyra gånger snabbare på att hantera den kategori av deep learning-nät som kallas CNN (convolutional neural networks) och som används för just bildanalys.

Ceva berättar inte vilket system jämförelsen gäller, men system av det slaget byggs av Nvidia. Ett av dem heter Drive PX och sitter i Volvos experimentella självkörande bilar. (*)

Den nya prestandan kommer sig bland annat av att XM6 i jämförelse med XM4 har fått en ny vektorenhet, en ny skalärenhet, nya instruktioner, högre bandbredd och bättre DMA.

CNN-acceleration sker dessutom inte bara inuti XM6-signalkärnan utan också i en accelerator vid sidan av den, som levererar 512 MAC/klockcykel i 16-bitarsprecision. XM6-kärnans 256 egna MAC-enheter kan användas parallellt.

Vid XM6-kärnan finns också en accelerator för så kallad de-warp, för att bland annat transformera indata från en 360-graderskamera till ett användbart koordinatsystem. Det här är en av de få tillämpningar av XM6 Ceva nämner som inte har en direkt anknytning till deep learning.

Deep learning stöds även i mjukvara. Med hjälp av Cevas egna programutvecklingsverktyg tar du fram deep learning-nät som sedan laddas i dsp-kärnan.

Det finns stöd för att portera nät utvecklade i standardbilioteken Caffe och Tensorflow till XM6. Ett annat intressant koncept som stöds är att ta ett nät utvecklat i 32 bitars precision och istället köra det i 16 bitars precision. Därmed halveras minnesavtrycket medan enligt Ceva endast högst en procent förloras i noggrannhet.

Också biblioteket OpenCV för datorseende stöds, liksom OpenCL, OpenVX och Ceva-CV – det sistnämnda Cevas eget bibliotek för datorseende.

Vad gäller utökad verklighet (augmented reality) har XM6 fått bättre stöd för SLAM (Simultaneous localization and mapping) det vill säga att automatiskt skapa en 3D-karta av en miljö som filmas.

Som tillval finns en 32-vägars vektorenhet med 16 bitars flyttalsprecision. (**)

Komponenterna i denna plattform kommer att licenseras till viktiga kunder från och med fjärde kvartalet i år och till övriga kunder från och med första kvartalet 2017.

FOTNOTER

Tillägg den 30 september 2016:

(*) Ceva berättar för Elektroniktidningen att systemet i fråga är Nvidia TX1, det vill säga en generation äldre än chipet i Drive PX och två generationer äldre än det Xavier-chip som Nvidia lanserar just nu. Det är ganska typiskt för jämförelser i halvledarbranschen att de på detta sätt oftast gäller rörliga mål.

(**) Till skillnad från Xavier stöder XM6 inte åttabitarsprecision. Ceva har fått önskemål om detta från Google, men enligt Ceva är det ännu inte verifierat att åtta bitar ger önskad noggrannhet.