Skupina Speech@FIT z Fakulty informačních technologií potvrdila špičkové postavení v automatickém rozpoznávání jazyka

Skupina zpracování řeči Speech@FIT na Ústavu počítačové grafiky a multimédií FIT VUT se dlouhodobě věnuje analýze a rozpoznávání mluvené řeči. Co se dá v řeči rozpoznávat?

  • "Co bylo řečeno" – toto je úkolem rozpoznávání řeči. U celkového přepisu hovoříme většinou o rozpoznávání plynulé řeči s velkým slovníkem (large vocabulary continuous speech recognition LVCSR). Můžeme se ale zaměřit jen na určitá klíčová slova nebo klíčové fráze.
  • "Jakou řečí se mluví" je řešeno rozpoznáváním jazyka
  • "Kdo to řekl" je úkolem rozpoznávání mluvčího. Výběr jednoho mluvčího z množiny nazýváme identifikací mluvčího, ověření předpokládané identity pak verifikací mluvčího.

Významnou posici si skupina vydobyla výbornými umístěními v mezinárodních evaluacích pořádaných americkým Národním úřadem pro standardizaci a technologie NIST – naposled to byly evaluace technologií pro rozpoznávání jazyka v závěru roku 2007.

NIST (National Institute of Standards and Technology), který je agenturou vlády USA, pořádá každoročně evaluace různých technologií zpracování řeči jako je rozpoznávání, identifikace mluvčího, strojový překlad, atd. Před evaluací je známa pouze metodologie vyhodnocení výsledků, a je k disposici tzv. "development" data-set, na kterém mají participující laboratoře možnost ověřit si své algoritmy. Vlastní evaluace probíhá v přesně daném čase (obvykle 2 týdny), na jehož začátku obdrží všichni neznámá data, do konce soutěžního období pak musí odeslat do NIST výsledky. NIST je pak vyhodnotí a následuje workshop konaný v USA, kde jsou vyhlášeny výsledky a diskutovány technologie použité v jednotlivých systémech.

Na workshopu konaném v Orlandu (Florida, USA) v prosinci 2007 byla Speech@FIT jako jeden z nejlepších účastníků vyzván nejen k detailní presentaci svého systému, ale také několikrát zmiňována jako skupina, která přispěla k mezinárodní spolupráci v rozpoznávání jazyka. Několik výzkumných skupin z různých kontinentů použilo s úspěchem fonémový rozpoznávač, vyvinutý klíčovým výzkumníkem Speech@FIT Petrem Schwarzem – tento software je klíčovým prvkem systémů pro rozpoznávání jazyka.

Všechny uvedené řečové aplikace jsou vysoce zajímavé pro složky zajišťující bezpečnost a obranu. Speech@FIT má dlouhodobou spolupráci s Ministerstvem obrany ČR, ale zájem o její algoritmy a software je i ze zahraničí. Není překvapující, že NIST evaluace i workshop sponzoruje americké Ministerstvo obrany a zpravodajské služby.

Aktivity skupiny (nejen v rozpoznávání jazyka) jsou integrovány ve výzkumném záměru MŠMT „Výzkum informačních technologií z hlediska bezpečnosti“, řešeném na FIT VUT. Společně s dalšími českými laboratořemi zabývajícími se zpracováním řeči se Speech@FIT účastní projektu „Překlenutí jazykové bariéry, komplikující vyšetřování financování terorismu a závažné finanční kriminality“, který je sponzorován Ministerstvem vnitra ČR. Speech@FIT je rovněž podporována několika evropskými výzkumnými projekty (6. a 7. rámcový program). Roční rozpočet dvacetičlenné výzkumné skupiny složené ze zaměstnanců FIT VUT, doktorandů i studentů, činí téměř 10 milionů Kč.

Aktivity skupiny budou presentovány na Dni otevřených dveří FIT v jejím nově rekonstruovaném kampusu na Božetěchově ulici v pátek 11.1.2008, srdečně zváni jsou především zájemci o studium. Termín podání přihlášek ke studiu je 15. březen 2008.

Kdo je za letošním úspěchem:

  • Pavel Matějka – koordinátor aktivit rozpoznávání jazyka a mluvčího
  • Lukáš Burget – vědecký ředitel skupiny
  • Petr Schwarz – koordinátor fonémového rozpoznávání
  • Ondřej Glembek, Michal Fapšo, Tomáš Mikolov, Oldřich Plchot a Martin Karafiát - doktorandi
  • Valiantsina Hubeika – studentka
  • a samozřejmě naše administrativní a systémová podpora!
  • Skupinu vede Honza Černocký.

Více informací: