Do Brna míří světové špičky ve zpracování řeči. Ukážou, zda lze z hlasu rozpoznat nákazu koronavirem

Siri, Alexa, Google – s těmi všemi už si dnes běžně povídáme. Kdo jim ale vdechl život? Rozpoznávání řeči se postupně přeneslo z IT laboratoří do chytrých domácností a stalo se běžnou součástí každodenního života. Získávání informací z audiozáznamů je tak stále důležitější. Česká republika bude vůbec poprvé v historii hostit mezinárodní konferenci Interspeech, která se uskuteční v Brně od 30. srpna do 3. září 2021. Do moravské metropole dorazí stovky světových odborníků – tzv. řečařů, kteří se specializují na zpracování audiozáznamů. Další víc jak tisícovka znalců se k akci připojí on-line. Specialisté představí novinky z oboru, např. jak začít využívat strojového učení i s minimem vstupních dat, nebo zda lze rozpoznat nákazu koronavirem z kašle.

„Zatímco před pandemií jsme analyzovali různé formy kašle kvůli diagnostice chronických plicních chorob, tuberkulózy či astmatu, poslední dva roky jsme se zaměřili na zvukové projevy koronaviru,“ říká indický expert Siriam Ganapathy, jehož cílem bylo ušetřit finance na testování a urychlit diagnostiku. Tématu spojenému s pandemií se na Interspeech věnují hned dvě programové sekce. Dlouhodobě totiž řečaři získávají z audiozáznamů informace o zdravotním stavu pacienta, případně o jeho mentálním rozpoložení. 

„Heslem konference je Řeč všude. Zatímco dříve se výzkumu dolování dat z řeči věnovalo jen pár skupin, dnes je rozpoznávání řeči zahrnuto v každém chytrém telefonu a mnoha dalších zařízeních. Mluví s námi lednička, auto i roboti na telefonních linkách. Zatím ale stále nejsme s výzkumem a rozvojem u konce. Velkým tématem této doby je také trénování modelů strojového učení jen na malém množství dat. Přeci jen získat data z audiozáznamů je dost náročné i finančně nákladné, proto se teď výzkumné týmy z celého světa snaží naučit stoje, jak se mají učit jen z malých databází, které lze jednoduše stáhnout z YouTube či internetu obecně,“ naznačil jeden z hlavních organizátorů Jan Černocký z Fakulty informačních technologií VUT, kde roky vede výzkumnou skupinu BUT Speech@FIT.

Mezi hlavními řečníky bude například Hermann Ney z německé univerzity v Aachenu, který letos získá na konferenci medaili za celoživotní přínos oboru od Mezinárodní řečové a komunikační asociace ISCA. Tuzemskou vědu bude reprezentovat například absolvent FIT VUT Tomáš Mikolov, na akci promluví také renomované vědkyně Pascale Fung z Hong Kongu a Mounya Elhilali z americké Johns Hopkins University. 

„Data získaná z audiozáznamů se stále zpřesňují. Postupně se vědci z celého světa snaží naučit umělou inteligenci pracovat se zvukem i ve zhoršených podmínkách, jako je rozhovor lidí v dálce, s ozvěnou v kostele nebo třeba v restauraci plné lidí. Musíme řešit i jazykové pokrytí, protože nyní je velký rozvoj spíš u komerčně užívaných jazyků, jako je angličtina, francouzština, němčina a podobně, ale v budoucnu bude potřeba věnovat se i méně reprezentovaným jazykům, které kolikrát ani nemají písemnou formu, jen tu mluvenou,“ doplnil Černocký, který na organizaci akce intenzivně spolupracoval s kolegou Lukášem Burgetem z FIT.

Brno se o pořádání konference začalo snažit poprvé v roce 2015, a to i proto, že v moravské metropoli působí řada IT firem, které se věnují právě zpracování dat ze zvuku. Interspeech 2021 bude poprvé kombinovat prezenční a on-line podobu, kdy do Brna zavítá přes 350 vědců, virtuálně se k akci připojí dalších téměř 1 400. Celkově zde budou zastoupeny všechny kontinenty, nejvíce vědců bude z Evropy, Severní Ameriky a Asie. Celkově organizační tým vybral k prezentaci 992 vědeckých článků z více než dvou tisíc zaslaných.

Více na https://www.interspeech2021.org/