JavaScript is currently disabled.Please enable it for a better experience of Jumi. Ex-googlare skeppar AI-server

Amerikanska Groq släpper en rackenhet med åtta exemplar av den egna kretsen TSP (Tensor Streaming Processor). Den används för att accelerera neuronnätsinferenser.

Kretsen och ett PCI-expresskort med en krets presenterades för snart ett år sedan. Nu skeppar Groq åtta exemplar av kortet i en 5U-rackenhet som levererar sex petaops på 3300 watt. Samtidigt släpps en uppdatering av utvecklingsmiljön.

Groqkrets …

… i Groqkort …

… i Groqburk.

Ett exemplar av kretsen levererar en biljard (1015) åttabitars heltalsoperationer i per sekund, alternativt 250 biljoner (1012) 16-bitars  flyttalsoperationer – en petaops respektive 250 teraops.

Korten har kunnat testas som molntjänst hos amerikanska Nimbix sedan januari.

Groqs grundare är en grupp från Googles motsvarande processorprojekt TPU, som används flitigt i Googles moln sedan 2015, och är inne på sin tredje generation. Chefsarkitekten heter Dennis Abts. Vd heter Jonathan Ross. Amerikanska Marvell hjälpte till med kommunikationsgränssnitten.

Google marknadsför inte sin krets. Huvudkonkurrenten är istället Nvidia och dess grafikkort.

Groq hävdar att det har den snabbaste nauronnätsacceleratorn just nu. Oberoende Linley Group verifierade i början av året att Groqs krets är 2,5 gånger snabbare på större batchjobb och hela 17 gånger snabbare på enstaka uppdrag än Nvidias grafikkretsar. Framför allt trycker Groq på det senare – hög prestanda på enstaka uppdrag innebär kort responstid, det vill säga snabba reaktioner.*

18 900 inferenser per sekund kan kretsen göra på bildigenkänningsnätet ResNet-50 v2, i en batchstorlek på 1. Det bästa resultat Nvidia rapporterat för sin VP100-krets är 7 907.

Groq har kunder inom hälsovård, life sciences och finansmarknad, och fiskar nu efter kunder inom autonoma fordon och på nationella labb.

Arkitekturen liknar liksom i Googles TPU en systolisk array och är deterministisk.

Chipet mäter mäter 725 mm2 och tillverkas av Global Foundries i 14 nm. Det är klockat till 1,25 GHz när det levererar 1 petaops i INT8.  Chipet stöder även INT16 och FP16.

I varje chip sitter 220 megabyte minne. Detta ska rymma nätet Bert-base, som har 110 miljoner parametrar.

Den interna minnesbandbredden är 80 terabyte/s. Kommunikationen mellan korten sker med 200 Gbit/s Ethernet eller Infiniband HDR. Två AMD-Epyc-processorer organiserar arbetet.


FOTNOT
* Om du läser Linleys text ser du att prestandavärdena ibland skiljer sig från de som anges här. Grundorsaken är att Groq filats på chip och på algoritmer under året. Exempelvis ser du mätvärden för 900 MHz hos Linley och här för 1,25 GHz. 

MER LÄSNING:
 
KOMMENTARER
Kommentarer via Disqus

Anne-Charlotte Lantz

Anne-Charlotte
Lantz

+46(0)734-171099 ac@etn.se
(sälj och marknads­föring)
Per Henricsson

Per
Henricsson
+46(0)734-171303 per@etn.se
(redaktion)

Jan Tångring

Jan
Tångring
+46(0)734-171309 jan@etn.se
(redaktion)