TECHNIKA: Kdopak to mluví?
Pokusy o automatické rozpoznávání řeči mají dlouhou historii. Už začátkem devadesátých let přišel Apple s Newtonem – pokusem o jedno z prvních PDA. Newton reagoval na primitivní příkazy k jeho ovládání. Od té doby byly investovány stovky milionů dolarů, ale technologie významně nepokročila.
Hlas je považován za něco tak individuálního, jako jsou otisky prstů. Přesto pokračuje obrovský rozvoj algoritmů na hledání obecných rysů každého jazyka a mluvčího. Nejdále je pochopitelně angličtina. Před pár lety se dostala firma IBM tak daleko, že v řadě počítačů je instalován komerční software umožňující převod hlasu do textového editoru. Počítač je třeba natrénovat, tedy projít několikaminutovým cvičením, ve kterém se program snaží najít a zapamatovat vaši individuální intonaci. Úspěšnost je pozoruhodná, dá se přirovnat k prvním pokusům o převod psaného písma. Úskalí je stejné, i při devadesátiprocentní úspěšnosti převodu je rychlejší text napsat než opravit záznam. Přibývá ovšem další problém, jakékoli ehm či aha vytváří v textu nesrozumitelný záznam. Rovněž emocemi podbarvený hlas je prakticky nepřevoditelný. Nezbývá než se předem důkladně připravit, text nanečisto přečíst a diktovat. To je ovšem velmi nepraktické, vydrží jen pár skalních a pro ty se rozhodně nevyplatí dramaticky investovat do rozvoje dalších jazyků. Okrajová použití, třeba pro neslyšící, mohou být zajímavou aplikací.
V poslední době se ovšem zájem o rozpoznávání řeči výrazně zvětšil. Tajné služby monitorují telefonní rozhovory a chytají se citlivých slovíček. V záplavě záznamů je třeba nasadit počítačovou technologii, lidská kapacita nestačí. Protože nejde o úplný ani přesný převod, jako filtr jsou podobné pokusy úspěšné. Rozšiřuje se i používání v monitoringu call center. V množství přijatých hovorů je obtížné sledovat a monitorovat chování operátora. Filtr hledající citlivé výrazy nemilosrdně odhalí neprofesionální úlety. Rovněž telekomunikační operátoři hledají cesty, jak restaurovat hlasové služby, kdysi zdroj obrovských zisků, dnes marginální příjem. Pokusy o převod řeči do textu jsou samozřejmě mnohem obtížnější než převod textu do kovového neosobního hlasu, ale první vlaštovky už jsou na světě.
Jsem trochu pesimista v tom, že se dočkáme v nejbližších pár letech dokonalého převodu mluvené řeči do textu v řadě světových jazyků. Nicméně naznačená speciální použití se mají čile k světu a možná se ze sféry byznysu přenesou i k nám běžným uživatelům.
Euro 37/2008