Analog Devices: Maskiner berättar hur de mår – på ett språk du kan lära dig

Alla som ansvarar för maskinunderhåll vet hur informativt det kan vara att lyssna på dem och känna på deras vibrationer.

Ladda ner artikeln här (länk, pdf).
Fler tekniska rapporter finns på etn.se/expert

Monitorering av maskinhälsa via ljud och vibrationer kan halvera underhåll och fördubbla livslängd. Det kallas kontinuerlig akustisk realtidsanalys och är en central metod inom CBM (condition based maintenance, konditionsbaserat underhåll)

Det går att lära sig hur en maskin normalt ska låta. Ett ändrat ljud kan klassas som onormalt och det är möjligt att lära sig vad det specifika problem är som just det ljudet är förknippat med. Att identifiera avvikelser kan man lära sig på några minuter, men att koppla ljud och vibration till orsak och diagnos, kan kräva livslång träning.

Erfarna tekniker och ingenjörer kan sitta på sådan kunskap, men de är få. Att känna igen ett problem på instinkt utifrån endast ljud är en utmaning, även med tillgång till inspelningar, systematiska kategoriseringar och expertutbildning.

Med detta för ögonen har en arbetsgrupp på Analog Devices ägnat de senaste 20 åren åt att förstå hur människor tolkar ljud och vibrationer. Målet har varit att bygga system som kan lära sig känna igen ljud och vibrationer från maskiner och dechiffrera betydelsen för att kunna larma för onormala beteenden och ställa diagnos. Den här artikeln beskriver OtoSense som är ett maskinhälsoövervakningssystem. Det utnyttjar så kallad ”computer hearing” som hjälper en dator att tolka det som är den kanske främsta indikatorn på tillståndet hos en maskin: hur den låter och vibrerar.

Systemet kan användas för alla typer av maskiner och fungerar i realtid och utan behov av uppkoppling. Det har anpassats för industriella tillämpningar och är ett skalbart och effektivt system för monitorering av maskiners hälsotillstånd.

Artikeln beskriver de principer som vägleder utvecklingen av OtoSense och hur inspiration hämtas från den mänskliga hörseln. Kännetecken eller attribut, beräknas ur inspelade sekvenser av ljud och vibrationer och får en tolkning. Avslutningsvis förklaras den kontinuerliga inlärningsprocess som gör att OtoSense med tiden kan utvecklas och förbättras till att ställa alltmer komplicerade diagnoser med ökad noggrannhet.

För att OtoSense ska arbeta robust, neutralt och effektivt vägleds designen av följande principer:
• Inspiration hämtas från människans nervsystem eftersom människor bevisligen kan lära sig att förstå innebörden av hörbara ljud, och på ett energieffektivt sätt.
• Möjlighet till inlärning av både statiskt och dynamiskt ljud. Detta kräver anpassade attribut och kontinuerlig monitorering.
• Igenkänningen ska ske i sensorns lokala system. Det bör inte finnas något behov av att konsultera en avlägsen server för avgöranden.
• Samråd med och kunskapsinhämtning från experter måste ske under angenäma former och med minsta möjliga inverkan på deras normala arbetsuppgifter.

Hörseln är överlevnadens sinne. Den ger en holistisk känsla av samröre med händelser som sker utom synhåll, och den mognade fram redan innan du föddes.

Den process genom vilken vi människor förstår innebörden av ljud består av fyra steg: analog insamling av ljud, digitalisering, identifiering av närvarande attribut samt tolkning. Här ställer vi upp dessa steg sida vid sida med OtoSense-systemet:
• Analog insamling och digitalisering. Ett membran och små ben i mellanörat fångar ljudet och justerar den akustiska impedansen för att överföra vibrationer till en vätskefylld kanal där ett annat membran förskjuts selektivt beroende på signalens spektrala komponenter. Detta kröker i sin tur flexibla celler, vilket alstrar en digital utsignal som återspeglar mängd och grad av krökning. Individuella signaler förs längs parallella nervbanor ordnade efter frekvens till den primära hörselbarken.
• I OtoSense sker motsvarande process i sensorer, förstärkare och omkodare. Digitaliseringen sker i en fast samplingsfrekvens mellan 250 Hz och 196 kHz. Vågformen kvantiseras i 16 bitar och lagras i buffertar som rymmer mellan 128 och 4 096 samplingar.
• Extraktion av attribut sker i den primära hörselbarken. Attributen är antingen frekvensbaserade – exempelvis dominanta frekvenser, övertoner eller spektral form – eller tidsbaserade – impulser, intensitetsvariationer eller primära frekvenskomponenter över ett tidsfönster på runt 3 sekunder.
• OtoSense använder ett tidsfönster med en fast bredd, ett “chunk” (stycke eller ljudstycke), som sveper fram över samplingarna med en fast steglängd. Storlek och steglängd kan variera mellan 23 ms och 3 s, beroende på samplingsfrekvens och på vilka händelser som monitoreras. Samtidigt extraheras attribut lokalt i ändnoden – vi återkommer till mer om dessa attribut i nästa avsnitt.
• Hörselsinnets tolkning sker i den associativa hjärnbarken. Den sammanfogar iakttagelser och minnen och ger ljuden mening, som i språk, som har en central roll i vår varseblivning. Tolkningsprocessen organiserar vår uppfattning av händelser långt bortom den enkla förmågan att bara namnge dem. Om en sak, ett ljud eller en händelse ges ett namn får den en vidare, mer mångfacetterad betydelse. Att skapa ord och betydelser är en experts grundläggande arbetsmetod för att förstå omvärlden.
• Därför utgår interaktionen med utvecklaren i OtoSens från en visualiserad karakterisering av ljudet, baserad på en oguidad process (unsupervised) och på det mänskliga nervsystemet. OtoSense visar en grafisk representation av de ljud och vibrationer som hörs, organiserade efter inbördes likhet, men utan försök att skapa strikta kategorier. Detta betyder att experten är fri att organisera och namnge grupperingar hen ser på skärmen utan att behöva skapa konstlade avgränsade kategorier. Experten kan bygga en semantisk karta utifrån sina kunskaper, iakttagelser och förväntningar beträffande OtoSense-systemets slutresultat. Samma ljudkarta skulle kunna delas upp, organiseras och etiketteras på helt olika sätt av bilmekaniker, flyg- och rymdingenjörer och smidesspecialister – eller till och med av någon inom samma yrke men på ett annat företag. Det som OtoSense gör är att den använder samma typ av bottom-up-metod för att skapa mening som människor när vi formar vårt språk.

Attributen, som numreras, beskriver specifika kvaliteter eller egenskaper i ett ljud eller en vibration under ett tidsavsnitt (ljudstycken eller chunks). OtoSense-plattformens principer för att bestämma attributen är följande:
• Attributen bör täcka in miljön så komplett och detaljrikt som möjligt beträffande både frekvens och tid. De måste kunna beskriva såväl stationära surranden, som klick, skaller, gnissel och andra övergående instabila ljud.
• Sträva efter en ortogonal – oberoende – uppsättning attribut. Om ett attribut är definierat som “ljudstyckets genomsnittliga amplitud” bör det inte finnas andra attribut som fångar samma egenskap, som i detta fall exempelvis “styckets totala spektrala energi”. Ortogonalitet uppnås förstås aldrig bokstavligen, men inget attribut bör uttryckas enbart som en kombination av andra – samtliga attribut måste innehålla viss unik information.
• Attributen bör minimera beräkningkraven. Det enda våra hjärnor kan göra är att addera, jämföra och nollställa. Därför bygger merparten av OtoSense-attributen vidare på varandra – ett nytt sample modifierar ett attribut med en simpel operation. Därmed krävs ingen ombearbetning av en hel buffert eller, ännu värre, ett helt tidsavsnitt. Av ambitionen att minimera följer även att man inte ska bekymra sig om att försöka använda vanliga fysiska enheter. Det är till exempel ingen poäng med att sträva efter att utrycka intensitet i dBA. Ett dBA-värde kan tas fram senare vid behov, om det efterfrågas.

Vissa av OtoSense-plattformens mellan 2 och 1 024 attribut är beskrivningar av tidsdomänen. Antingen är de beräknade direkt från vågformen eller en utveckling av något annat av ljudstyckets attribut. Vissa av attributen inkluderar genomsnittlig eller maximal amplitud, komplexitet härrörande från vågformens linjära längd, amplitudvariationer, förekomst och karakterisering av stötar, stabilitet uttryckt som likhet mellan den första och den sista bufferten, begränsad självkorrelation som undviker konvolution, och variation mellan de första spektraltopparna.

Frekvensbaserade attribut konstrueras ur en FFT som beräknas för varje buffert och ger mellan 128 och 2048 enskilda frekvensbidrag. Processen skapar en vektor med önskat antal dimensioner – som naturligtvis är mycket färre än FFT-storleken, men som fortfarande ger en utförlig beskrivning av miljön. OtoSense använder initialt en agnostisk metod som skapar jämnstora grupper inom ett logaritmiskt spektrum. Beroende på miljön och de händelser som ska identifieras anpassas därefter grupperna till att fokusera på områden av spektrat där informationsdensiteten är hög, antingen utan guidning (unsupervised) genom att maximera entropi, eller delvis styrt genom att etiketterade händelser utnyttjas som vägledning. Detta härmar arkitekturen i innerörats celler, som är tätare där talinformationen är som störst.

Detektering av ytterlighetsvärden och händelseigenkänning med OtoSense sker lokalt, vid kantenheterna, utan hjälp av yttre resurser. Detta säkerställer att systemet är immunt mot nätverksfel och betyder att det slipper skicka iväg all rådata för analys. En lokal enhet som kör OtoSense är ett oberoende system som i realtid kan beskriva beteendet hos maskinen den är satt att lyssna på.

OtoSense-servern, som kör AI och HMI, placeras vanligtvis på platsen. En molnarkitektur vore en bra lösning för att samla ihop meningsfulla dataströmmar som utdata från OtoSense-enheter. Men det är mindre meningsfullt att använda molntjänster för en AI som bearbetar stora mängder data och som samarbetar med hundratals lokala enheter i samma installation.

För att komma igång med värderingen av vad som är normalt och vad som är avvikande krävs inte så mycket samarbete med experter. De behöver bara hjälpa till med att etablera en baslinje för en maskins normala ljud och vibrationer. Denna baslinje översätts sedan till en modell för ytterlighetsvärden på Otosense-servern innan den skickas till kantenheten.

Två olika strategier används för att utvärdera hur ”normalt” ett inkommande ljud eller en vibration är:
• Den första strategin kallas “vanlighet” och innebär att inkommande ljud med attribut inom kartlagda områden jämförs med sin omgivning – hur långt det är till baslinjer för olika punkter och kluster, och hur stora dessa kluster är. Ju större avstånd och ju mindre kluster, desto mer ovanligt är ljudet och desto större blir måttet på hur mycket det avviker. När avvikelsen ligger över ett tröskelvärde som definierats av experter, etiketteras motsvarande tidsavsnitt (chunk) som ovanligt och rapporters till en server där det görs tillgängligt för experter.
• Den andra strategin är enkel: inkommande tidsavsnitt med något attribut som ligger över eller under de högsta eller de lägsta värdena för samtliga de attributvärden som definierar baslinjer, etiketteras som utanförliggare och rapporteras till servern.

Kombinationen av strategierna ”ovanlighet” och ”ytterlighet” ger en bra täckning för onormala ljud och vibrationer som kan förekomma, och fungerar både för detektering av progressivt slitage och plötsliga intensiva förlopp.

Ett attribut i sig hör samman med den fysiska världen, medan dess innebörd definieras ur människans kognitiva verklighet. Så för att knyta ett attribut till en innebörd, måste OtoSense-systemets AI sammanföras med en mänsklig expert. Vi har fått återkoppling från våra kunder och har ägnat mycket tid åt att utveckla ett användargränssnitt som gör det möjligt att samarbeta effektivt med OtoSense i utformandet av modeller för igenkänning av händelser. I detta gränssnitt kan ingenjörer utforska och etikettera data, skapa modeller för avvikelser och ljudigenkänning samt testa dessa modeller.

Med verktyget ”Sound Platter” (även kallad “splatter”) går det att utforska och etikettera ljud med översikt över det kompletta datasetet. Splatter gör ett urval av de mest intressanta och representativa ljuden i ett komplett dataset och visar dessa som en tvådimensionell likhetskarta med en blandning av märkta och omärkta ljud.

Ljud och vibrationer kan visualiseras tillsammans med sin betydelse på många olika sätt – exempelvis genom användning av Sound Widgets (även kallade “swidgets”).

En avvikelsemodell eller en modell för händelseigenkänning kan skapas när som helst. Modeller för händelseigenkänning redovisas i form av en rund felklassificeringsmatris. Detta låter OtoSense-användaren utforska svårklassificerbara händelser.

Avvikelser kan utforskas och etiketteras via ett gränssnitt som visar samtliga ovanliga och extrema ljud under en tidsperiod.

OtoSense har utformats för inlärning med hjälp av flera experter, och för att med tiden möjliggöra alltmer komplicerad diagnostik. Den typiska processen består i att OtoSense och experter turas om att återkoppla till varandra:
• En modell för avvikelser och en modell för händelseigenkänning körs i kantenheterna. Körningen genererar utdata i form av sannolikheter för att händelser inträffat, tillsammans med deras ytterlighetspoäng.
• Ett ovanligt ljud eller en ovanlig vibration, som överskrider definierade tröskelvärden, utlöser ett avvikelsemeddelande. Tekniker och ingenjörer som använder OtoSense kan då kontrollera ljudet och dess sammanhang.
• Experten sätter en etikett på den ovanliga händelsen.
•Nya modeller som inkluderar den nya informationen skapas och skickas till kantenheterna.

Slutsatser
Syftet med Analog Devices OtoSense-teknik är att expertutvärderingar av ljud och vibrationer som identifierar händelser och avvikelser, ska kunna göras på alla sorters maskiner, utan behov av uppkoppling.

Tekniken ser en ökande användning för övervakning av maskinhälsa inom flyg- och rymd-, fordons- och industriövervakande tillämpningar. Den har uppvisat goda resultat i situationer som brukade kräva mänsklig expertis, framför allt när det gällt komplicerade maskiner.