Groq i Mountain View har provexemplar hos kund av sin första neuronnätsaccelerator A0. En petaoperation per sekund – 1 Pops, en etta med femton nollor – så många operationer utförs när alla rörledningar i detta massivt parallella chip är fyllda.
Groq bildades av åtta av de tio personer på Google som år 2015 konstruerade TPU (Tensor Processing Unit) som är världens första och fortfarande hittills enda specialsydda moln-neuronnätsaccelerator.
Groqs chip finns nu på ett PCI Expresskort som utvärderas hos potentiella kunder.
Chipet heter kort och gott A0 och använder en arkitektur kallad TSP (Tensor Streaming Processor). Att det är en strömningsprocessor betyder att den konfigureras till att beräkna en och samma funktion som sedan appliceras deterministiskt som i ett löpande band på data som strömmar igenom den.
När Groq presenterade sig för två år sedan lovade det bara 400 Tops (teraoperationer per sekund). Då angav företaget även en verkningsgrad – 8 Tops per watt.
”Operationer per sekund” är ett mycket grovt mått på AI-prestanda. Det som räknas är bara grundläggande processoroperationer. Ett annat grovt mått som Groq anger är att den klarar 250 biljoner flyttalsoperationer per sekund, 250 teraflops. Pressmeddelandet anger inte formatet eller precisionen på flyttalen och Elektroniktidningen lyckas inte googla upp detta. Numeriska format för neuronnät är ett område där det sker mycket nyskapande och varje sparad bit kan göra stor skillnad i prestanda.
Groq beskriver chipet som ”många multiplar snabbare” än något annat ”som finns att få tag på” när det gäller inferenser, både när det gäller latens och inferenser per sekund. Det säger inte så mycket eftersom det bara finns Nvidia-grafikprocessorer och FPGA:er att jämföra sig mot och de är inte skräddarsydda för neuronnätsberäkningar.
Det användbara måttet på prestanda skulle vara exempelvis hur många bilder per sekund som kretsen kan applicera ett specifikt neuronnät på, eller hur lång tid det tar att träna upp en viss typ av neuronnät.
Groq anger att chipet inte bara gör neuronnätsberäkningar utan godtycklig typ av högprestandaberäkning, vare sig den är dataintensiv (bearbetar många datapaket) eller beräkningsintesiv (bearbetar varje paket mycket).
Här finns ett pratigt vitpapper från Groq (länk), men det innehåller nästan ingen information.
Inte heller sajten Next Platform, som specialiserar sig på superdatorarkitektur, har lyckats vaska fram någon information om A0 utöver att talformatet antydningsvis är FP16 och att den är optimerad för små batchstorlekar – alltså att den snabbt kan byta ut den funktion som appliceras på intströmmande data.