Skriv ut

En superdator byggd av världens största chips har tränat upp sju GPT-språkmodeller och släpper dem som öppen källkod.

Det är Cerebras som bjuder på språkmodellerna. De är tränade på företagets gigantiska chip WSE (Wafer Scale Engine). En WSE är ett chip tillverkat av en komplett kiselskiva. Det utvecklades just för att göra beräkningar på artificiella neuronnät, vilket alla så kallade stora språkmodeller (LLM, large language model) är.

Cerebras har tränat upp näten på några veckor där det skulle månader ta för andra – om man får tro Cerebras – som tränar dem främst på Nvidia-grafikkort.

Den superdator som Cerebras tränat upp språkmodellerna på heter Andromeda. Den använder 16 stycken WSE-chips i 7 nm, vart och ett placerat i ett eget rack med kommunikation, kylning och inte minst strömförsörjning – 13 kilowatt per chip.

Andromeda finns sedan tidigare som molntjänst.

Näten som Andromeda tränat upp använder arkitekturen GPT-3. De har mellan 111 miljoner och 13 miljarder parametrar, logaritmiskt ganska jämt fördelade i storlek.

De tränades på en öppen datamängd vid namn Pile vars fulla volym är 800 gbyte. Men modellerna är olika stora och Cerebras gjorde ett urval enligt vad företaget kallar Chinchillareceptet: träningsdata väljs 20 gånger större än antalet parametrar i modellen.

Näten kan användas som förtränade modeller för senare justering mot specifika tillämpningar.

En forskningsrapport om projektet under författande. Här finns bland annat forskningsresultat som har att göra med att chipets storlek betyder att träningen av alla storlekar av språkmodeller kunde göra på ett enhetligt sätt. Träning på grafikkort skulle snarare ha använt olika knep för att optimera träningen för olika nätstorlekar.

Modellerna kan fritt tankas hem på Hugging Face och Github.

Cerebras kritiserar företag som bygger stora språkmodeller utan att släppa dem fria

– Det koncentrerar ägandet, begränsar ekosystemets tillväxt och skapar säkerhetsrisker.