Seminarium 11.03.2019

Dr Marek Grochowski, Katedra Informatyki Stosowanej, UMK: “Douczanie głębokich modeli akustycznych dla pojedynczych mówców”

Abstrakt
Model akustyczny w systemach automatycznego rozpoznawania mowy odpowiada za wykrycie w sygnale dźwiękowym sekwencji fonemów. Głębokie sieci neuronowe trenowane na setkach godzin nagrań pozwalają uzyskać modele akustyczne o bardzo dużej poprawności. Jednakże różnice występujące w wymowie poszczególnych osób, wynikające chociażby z wad wymowy, ujemnie wpływają na jakość rozpoznawania fonemów a co za tym idzie, zwiększają liczbę błędnie rozpoznanych słów przez system. Posiadając jednak małą próbkę nagrań (jedną lub kilka wypowiedzi) danej osoby jesteśmy w stanie istotnie zwiększyć poprawność rozpoznawania fonemów dla tej osoby poprzez szybkie douczanie istniejącego modelu, bez potrzeby kosztownego trenowania nowego modelu. W czasie wystąpienia przedstawione zostaną wyniki uzyskane dla douczania modeli akustycznych zrealizowanych za pomocą głębokich sieci rekurencyjnych z jednostkami LSTM za pomocą kilku wybranych technik.

Prezentacja: Marek Grochowski - Speaker Adaptation of Deep Acoustic Model