Skip to main content

Hvad er stemmegenkendelse?

Stemmegenkendelse kan henvise til en af to typer datalogi: retsmedicinsk stemmeidentifikation eller tale-til-tekst-kapacitet.Denne artikel vedrører sidstnævnte definition.

Stemmegenkendelse eller talegenkendelse i dette tilfælde er en computerteknologi, der bruger lydindgang til indtastning af data snarere end et tastatur.At tale ind i en mikrofon giver for eksempel det samme resultat som at skrive ord manuelt med et tastatur.Enkelt angivet er stemmegenkendelsessoftware designet med en intern database med genkendelige ord eller sætninger.Programmet matcher lydsignaturen af tale med tilsvarende poster i databasen.

Selvom det kan lyde let at omdanne tale til tekst, er det en ekstremt vanskelig opgave.Problemet ligger i det næsten uendelige udvalg af individuelle talemønstre og accenter, sammensat af den naturlige menneskelige tendens til at køre ord sammen.

En illustration af de iboende udfordringer ved stemmegenkendelsessoftware vises på en T-shirt skabt af Apple-forskere.Skjorten lyder, jeg hjalp Apple med at ødelægge en dejlig strand.Når det tales højt, lyder det som, Jeg hjalp Apple med at genkende tale.

Forskellige modeller af stemmegenkendelsessoftware bruges til en række applikationer, fra personlig diktat til kommerciel automatiseret opkaldsrute, fra at hjælpe den handicappede til sport og nyhedsbegivenhedUndertekst.Hver model opfører sig forskelligt og har sine egne kapaciteter og grænser.

Stemmegenkendelsesprogrammer, der kræver, at brugeren træner softwaren til at genkende deres særlige stiliserede tale mønstre kaldes Højttalerafhængige -systemer.Personer bruger ofte disse typer programmer derhjemme eller på kontoret.E -mail, memoer, breve, data og tekst kan indtastes ved at tale ind i en mikrofon.

Nogle stemmegenkendelsessystemer, kaldet Diskrete tale Systemer, kræver, at brugeren taler klart og langsomt og adskiller ord. Kontinuerlige tale Systemer er designet til at forstå en mere naturlig tale.Systemet er

Højttaleruafhængig

, men forstår kun en lille pulje af ord eller sætninger.Opkalderen får et valg om at besvare et spørgsmål, normalt med ja eller nej.Efter modtagelse af et svar eskalerer systemet den, der ringer til det næste niveau.Hvis den, der ringer, svarer med et unikt svar, er det automatiserede svar normalt, undskyld, jeg forstod dig ikke;Prøv igen med en gentagelse af spørgsmålet og tilgængelige svar.Denne type stemmegenkendelse kaldes også Grammar -begrænset anerkendelse. Kontinuerlig tale er en mere sofistikeret form for stemmegenkendelsessoftware, hvor den, der ringer, kan tale naturligt for at forklare et problem eller anmode om en tjeneste.Dette program er designet til at vælge nøgleord eller sætninger og gøre en statistisk bedst-gætte med hensyn til, hvad kunden ønsker.At tale klart hjælper stemmegenkendelse med at identificere behovet.Denne type system har en langt mere intensiv database end diskrete talesystemer og omtales også som

Naturlig sproggenkendelse.

Automatisk talegenkendelse (ASR) er en model for stemmegenkendelse designet til diktat.Denne software adskiller sig fra tidligere modeller, idet den ikke stræber efter at forstå, hvad der siges, kun for at identificere de talte ord.Da mange ord i det engelsksprogede lyd lyder, begik der let fejl.Imidlertid investerer større virksomheder som Microsoft i stemmegenkendelse, og Bill Gates egen forudsigelse har ASR forståelse af kontinuerlig tale inden år 2011. ASR -software findes ofte på digitale stemmeoptagere.

Dominerende spillere i stemmegenkendelsessoftware har været Scansoft og nuance, med det tidligere selskab, der erhverver sidstnævnte.Mindre spillere inkluderer blandt andet Fonix Speech, Aculab og Verbio med store virksomhederLigesom IBM og den førnævnte Microsoft investerer også i teknologien.Selvom mange stadig føler, at det er mere problemer at træne software og rette fejl end blot at bruge et tastatur, kommer en tid, hvor stemmegenkendelsessoftware sandsynligvis lukker dette hul.Forøgelse af tastaturer med den diskriminerede evne til at bruge tale vil sandsynligvis blive almindeligt.

Software til stemmegenkendelsessoftware vinder popularitet, da den bliver mere sofistikeret.Det er især nyttigt i erhvervslivet, hvor det kan erstatte en live operatør til tragtopkald, formidle information, tage ordrer og udføre andre meget nyttige funktioner.Imidlertid vinder det også fordel som en desktop -applikation, hjulpet med af anerkendt software som Scansofts, DragonnaturallySpeaking og IBMS Viavoice .