Att diktera sms
snart lika snabbt
som att skriva
Den svenske forskaren bakom Shapewriter – textinmatningsmetoden som gör succe på både Android och Iphone – experimenterar idag med teknik för att diktera sms med rösten. Enligt Per Ola Kristensson står talteknik inför sitt genombrott, paradoxalt nog delvis på grund av pekskärmarnas intåg – de underlättar felrättning.Per Ola Kristenssons experiment utgår från realistiska förhållanden för en mobiltelefon. Testpersonerna har bland annat fått promenera omkring samtidigt som de dikterar.
– Vi har visat att mobil taligenkänning kan vara lika snabb som topphastigheter för andra mobiltextinmatningstekniker, berättar Per Ola Kristensson.
Per Ola Kristensson
Felrättning på pekskärm
Parakeet, som systemet kallas, nådde i experimenten en inmatningshastighet på i snitt 18 ord per minut sittande inomhus och 13 ord per minut under promenad utomhus. En expertanvändare nådde 45 ord per minut.
Nyckel till snabbheten är en metod att korrigera de taligenkänningsfel som trots allt uppstår.
– Vi har utvecklat ett pekgränssnitt baserat på ett så kallat word confusion network, vilket gör det lätt för användare att reparera fel.
Hela systemet körs i mobilen. Experimentutrustningen, en Nokia 800, har en teknisk flaskhals – det tar tid att koda det inspelade ljudet
Det som forskarna undersöker härnäst är hur snabb tekniken kan bli om det inspelade ljudet istället skickas till en server och sedan tillbaka till mobilen i form av text. Detta görs idag i det kommersiella diktafonprogrammet Dragon för Iphone från amerikanska Nuance.
– Nuance är state of the art inom taligenkänningsfältet överlag, i alla fall när det gäller precisionen på själva igenkänningen, säger Per Ola Kristensson.
Per Ola Kristensson och hans kollegor försöker vi inte tävla mot kommersiella aktörer utan utvecklar system för att testa hypoteser om hur människor kan använda taligenkänning effektivt i olika situationer.
Enligt Per Ola Kristensson finns flera orsaker till att taligenkänning börjar fungera praktiskt just nu. Forskningen kring taligenkänningsalgoritmer har mognat och det finns bra databaser att träna systemen mot.
– Hårdvaran spelar också roll. Först nu är mobila nätverk tillräckligt snabba för att man ska kunna överföra ljud och få resultat tillbaka från servern tillräckligt snabbt.
Sist men inte minst är pekskärmarna en nyckelteknologi. De kan användas för att rätta fel.
– Jag tror den stora pusselbiten som fattas kommersiellt just är bra användargränssnitt för att lätt låta användaren fixa fel. Taligenkänningsfel är oundvikliga och det är viktigt att hela inmatningsprocessen är smidig, säger Per Ola Kristensson.
Per Ola Kristensson är tidigare känd för en märklig metod att skriva text på pekskärmstangentbord: istället för att trycka ner tangent efter tangent, drar du slarvigt en sammanhängande linje genom tangenterna. Också här är sms-skrivade en viktig tillämpning.
Tekniken kallas Shapewriting och är patenterad av Per Ola Kristensson. En implementation för Android vann Google Developer challenge år 2008. En implementation för Iphone valdes ut som en av de bästa Iphoneapplikationerna av Time Magazine år 2008 och har laddats ner två miljoner gånger .
Den liknande tekniken Swype används idag på Samsungs Windowsmobil Omnia II och företaget bakom Swype har just fått nya investeringar från Nokia och Samsung.
– Intresset visar att shape writing är en vettig idé. Jag skulle gissa det kommer bli en mainstreamprodukt inom de närmaste två till fem åren bredvid fysiska tumtangentbord, säger Per Ola Kristensson.