Úspěch skupiny Speech@FIT v automatickém rozpoznávání mluvčího

Výzkumná skupina Speech@FIT z Fakulty informačních technologií VUT v Brně dosáhla dalšího významného úspěchu. Systém pro rozpoznávání mluvčího, který brněnští vědci vyvinuli společně s kolegy z Nizozemí a z Jihoafrické republiky, prokázal svou kvalitu v mezinárodní evaluaci pořádané americkým národním úřadem pro standardizaci (NIST).


Pavel Matějka (VUT), David van Leeuwen (TNO), Niko Brummer (Spescom Data Voice), Petr Schwarz and Lukáš Burget (oba VUT) na pláži v Puerto-Rico.

Co je rozpoznávání mluvčího?

Systém má k disposici několik tisíc trénovacích vzorků řeči s identitami mluvčích. Na nich se "naučí" tyto mluvčí rozpoznávat. Při rozpoznávání pak systém na základě krátké nahrávky řeči určí, který mluvčí ji namluvil. Druhou úlohou je verifikace - v tomto případě mluvčí do systému zadá svou identitu, namluví několik vteřin řeči a úkolem systému je určit, zda je mluvčí skutečně ten, za kterého se vydává, nebo zda se jedná o imitátora.

Systémy pro identifikaci mluvčího nacházejí uplatnění:

  • při vyhledávání informací v audio archivech v privátních podnikových sítích nebo na Internetu (přednášky, schůze, presentace, TV programy, atd.).
  • pro zvyšování kvality obsluhy v call-centrech, kdy je možné na základě několika vteřin řeči přibližně odhadnout, zda volá známý zákazník.
  • v bezpečnostní oblasti, kdy je nutné rychle najít podezřelého v mnoha nahrávkách či ověřit, zda nahraný řečový vzorek skutečně patří podezřelému.

Co jsou NIST evaluace?

NIST (National Institute of Standards and Technology), který je agenturou vlády USA, pořádá každoročně evaluace různých technologií zpracování řeči jako je rozpoznávání, identifikace mluvčího, strojový překlad, atd. Před evaluací je známa pouze metodika vyhodnocení výsledků, v některých případech je k disposici tzv. "development" set, na kterém mají participující laboratoře možnost ověřit si své algoritmy.

Vlastní evaluace probíhá v přesně daném čase - v případě rozpoznávání mluvčího 3 týdny. Na jejich začátku obdrží účastníci Fedexem neznámá data, a ve svých laboratořích je zpracují - ke každému souboru s řečí musí přiřadit odpověď "ano, jedná se zvoleného mluvčího" nebo "ne, je to někdo jiný". Na konci evaluačního období pak odešlou výsledky ve formě počítačových soborů do USA, NIST je vyhodnotí a vyhlásí výsledky. Nedílnou součástí evaluací je workshop, kde musí účastníci seznámit ostatní s použitými technologiemi - NIST evaluace tak slouží k posunu vědění v dané oblasti a k mezinárodní spolupráci týmů.

Jak vznikal brněnský systém?

Brněnský tým má mnohaletou tradici ve zpracování řeči, ale evaluací v identifikaci mluvčího se účastnil poprvé po několikaleté přestávce. Proto vědci z FIT VUT spojili své síly s odborníky z Holandska (institut TNO) a z Jihoafrické republiky (firma Spescom Data Voice a Universita Stellenbosch). Do tohoto mini-konsorcia přispěli především technikami pro velmi přesné trénování matematických modelů, které řeč popisují. Ve velmi krátké době také implementovali metody, které dovolují oddělit vliv přenosového kanálu (pevná linka, mobilní telefon, IP telefonie) od parametrů popisujících mluvčího: systém je pak mnohem přesnější i v případě, že mluvčího během trénování "slyšel" z pevné linky a testovací soubor je z mobilu.

Kdo skupinu Speech@FIT podporuje?

Hlavní podpora přichází samozřejmě z domovské Fakulty informačních technologií VUT. Práce na systému byla také podporována evropskými projekty AMI a CareTaker, projektem Ministerstva obrany ČR a Grantovou agenturou ČR.

Vývojový tým systému:

  • Ing. Pavel Matějka - doktorand - koordinátor týmu
  • Ing. Lukáš Burget, Ph.D. - odborný asistent
  • Ing. Petr Schwarz - doktorand
  • Ing. Martin Karafiát - doktorand
  • Ing. František Grézl - doktorand
  • Ing. Ondřej Glembek - doktorand

Online tisk