praca.pdf
(
8089 KB
)
Pobierz
Microsoft Word - Ca³oœæ.doc
POLITECHNIKA CZĘSTOCHOWSKA
Wydział Inżynierii Mechanicznej i Informatyki
Instytut Informatyki Teoretycznej i Stosowanej
Mgr inż.
Mariusz KUBANEK
METODA ROZPOZNAWANIA
AUDIO-WIDEO MOWY
POLSKIEJ
W OPARCIU O UKRYTE MODELE MARKOWA
PRACA DOKTORSKA
Promotor
Prof. dr hab. inż.
Leonid Kompanets
Częstochowa, 2005
SPIS TREŚCI
1. FORMUŁOWANIE PROBLEMU ROZPOZNAWANIA
AUDIO-WIDEO
MOWY
POLSKIEJ...........................................................................................................................4
1.1. Specyficzne cechy audio-wideo mowy jako obiekt do rozpoznawania
........................... 4
1.2.
Przegląd analityczny metod rozpoznawania audio-wideo mowy
...................................... 7
1.3.
Cel i teza pracy, bronione rozwiązania naukowe
.................................................................. 21
2. SZKIC METODY
AV_Mowa_PL
.....................................................................................23
2.1. Wymagania funkcjonalne do opracowania metody
AV_Mowa_PL
................................ 23
2.2. Specyfika podstawowych informacyjnych procedur metody
............................................ 24
2.3. Proponowane sposoby fuzji charakterystyk audio-wideo sygnałów
............................... 30
3. TWORZENIE WEKTORÓW OBSERWACJI SYGNAŁU
AUDIO
MOWY.................34
3.1. Zasady tworzenia wektorów obserwacji sygnału mowy
..................................................... 34
3.2. Proponowane metody
ES
i
CZS
do definiowania słów izolowanych
.............................. 40
3.3. Specyfika kodowania sygnału mowy w postaci cepstrum
................................................. 47
3.4. Kwantyzacja wektorowa cepstrum za pomocą algorytmu Lloyda
................................... 55
4. OSOBLIWOŚCI STOSOWANIA UKRYTYCH MODELI MARKOWA W METODZIE
AV_Mowa_PL
...................................................................................................................63
4.1. Wybór struktury i parametrów ukrytych modeli Markowa dla rozpoznawania audio-
wideo mowy polskiej
.................................................................................................................... 63
4.2.
Algorytm Viterbiego do inicjowania wstępnych parametrów modeli
............................ 72
4.3.
Algorytm Bauma-Welcha do reestymacji parametrów modeli
......................................... 76
4.4. Specyfika estymacji parametrów ukrytych modeli Markowa
........................................... 80
5. TWORZENIE WEKTORÓW OBSERWACJI SYGNAŁU
AUDIO-WIDEO
MOWY
POLSKIEJ.........................................................................................................................87
5.1. Opracowanie metody detekcji twarzy na podstawie koloru skóry
................................... 87
5.2. Metoda lokalizacji oczu do wyznaczenia obszaru ust
......................................................... 93
5.3. Proponowana metoda
CSM
wykrywania krawędzi ust z obrazu wideo
......................... 97
2
6. OPRACOWANIE SYSTEMU
AVM_PL
DO REALIZACJI METODY
AV_Mowa_PL
................................................................................................................108
6.1. Struktura i charakterystyki techniczne systemu
.................................................................. 108
6.2. Ekstrakcja charakterystyk sygnałów audio-wideo mowy
................................................. 119
6.3.
Fuzja charakterystyk audio-wideo mowy
.............................................................................. 131
6.4.
Budowa i nauczanie parametryczne ukrytych modeli Markowa
.................................... 134
7. BADANIE POZIOMU BŁĘDÓW METODY
AV_Mowa_PL
ZA POMOCĄ SYSTEMU
AVM_PL
..........................................................................................................................140
7.1. Charakterystyka stworzonej bazy audio-wideo komend
.................................................. 140
7.2. Obiekty, cele i metodyki eksperymentów
............................................................................. 143
7.3. Analiza wyników eksperymentu
.............................................................................................. 152
WNIOSKI KOŃCOWE.........................................................................................................156
WYKAZ DEFINICJI I SKRÓTÓW......................................................................................158
SUMMARY...........................................................................................................................161
LITERATURA.......................................................................................................................162
3
1. FORMUŁOWANIE PROBLEMU ROZPOZNAWANIA
AUDIO-WIDEO
MOWY
POLSKIEJ
Sformułowano problem rozpoznawania audio-wideo mowy. Zaprezentowano podstawowe
cechy audio-wideo mowy polskiej. Przedstawiono przegląd analityczny istniejących metod
rozpoznawania audio-wideo mowy, wraz z porównaniem najbardziej popularnych w
literaturze metod trekingu ust oraz rozpoznawania audio-wideo mowy izolowanej i ciągłej.
Postawiono cel i tezę pracy oraz bronione rozwiązania naukowe.
1.1. Specyficzne cechy audio-wideo mowy jako obiekt do rozpoznawania
Rozpoznawanie audio mowy ma zastosowanie w wielu dziedzinach. Jednak w rzeczywistym
otoczeniu funkcjonowania systemów rozpoznawania audio mowy nie można zapewnić
warunków pracy uważanych w przybliżeniu za idealne, czyli takie, które nie powodują
jakiegokolwiek negatywnego wpływu na skuteczność rozpoznawania. Takie rzeczywiste
otoczenie to na przykład.: biuro, samochód, fabryka, gdzie zakłócający sygnał audio jest
bardzo intensywny i zróżnicowany.
Zakłócenia mowy można podzielić na hałas otaczającego środowiska, echo
spowodowane specyficznym otoczeniem, zmieniony sposób mówienia, a także echo, szumy i
zniekształcenia spowodowane przez niepoprawnie funkcjonujący mikrofon. Hałas
otaczającego środowiska może być ciągły (odgłos wentylatorów i silników), lub też
pojawiający się z przerwami (przejeżdżanie samochodów, dzwonienie telefonów, zakłócająca
mowa). Echo spowodowane specyficznym otoczeniem często pojawia się w pomieszczeniach,
w których występują wnęki oraz inne czynniki wywołujące pogłos. Zmieniony sposób
mówienia powodują czynniki związane ze stanem zdrowia mówcy (przeziębienie), a także
różne stany emocjonalne (stres, śmiech) i różnorodny sposób wypowiadania (wolno, szybko,
cicho, głośno). Zakłócenia wprowadzane przez zastosowane mikrofony uzależnione są od
różnorodności charakterystyk filtrów, czy też graniczne częstotliwości pasma przejścia
zmieniające sygnał mowy.
Percepcja ludzkiej mowy jest z natury wielo-modalnym procesem, w którym
wykorzystuje się analizę sygnału akustycznego, polegającą na analizie gramatycznej,
semantycznej i pragmatycznej. Dodatkowo wiadomo, że człowiek posiada zdolność czytania
mowy poprzez analizę ruchu ust mówcy, czyli tzw. zdolność czytania z ruchu warg. Do tej
4
pory wiele badań prowadzono na temat automatycznego rozpoznawania mowy (ang.
Automatic Speech Recognition
, ASR). Obecnie główne wysiłki skierowane są na tworzenie
systemów odpornych na negatywnie wpływające czynniki zewnętrzne. Zaczęto poszukiwać
sposobów ograniczenia wpływu zakłócenia na właściwą pracę systemów. Jednym z takich
sposobów może być zastosowanie w niniejszej pracy dołączenia do rozpoznawanej audio
mowy, mowy wideo, będącej elementem ograniczającym wpływ negatywnych czynników
zewnętrznych na skuteczność rozpoznawania. Z uwagi na możliwość kojarzenia mowy na
podstawie ruchu warg zaproponowano połączenie informacji audio i wideo w podjęciu
decyzji o treściowym wyniku wypowiedzi, specjalnie w zakłóconym środowisku audio
mowy.
Zastosowanie rozpoznawania audio mowy w zakłóconym otoczeniu prowadzi często
do błędnych wyników, spowodowanych nieprawidłową interpretacją fonemów o bliskim
brzmieniu. Wideo mowa również może być błędnie interpretowana, co wyjaśnia przykład
nazwany efektem McGurk, gdzie wypowiedziany w języku angielskim fonem /ga/, w wideo
mowie przypomina fonem /ba/ [84], a wiele osób rozpoznaje w wypowiedzi fonem /da/
[84,98]. Wideo sygnał nie niesie wystarczającej informacji, zawiera jednak kilka
uzupełniających informacji do audio sygnału [78,84]. Na przykład, używając wskazówek
wideo do podjęcia decyzji, czy osoba wypowiedziała fonem /ba/, czy /ga/, może być
łatwiejsze niż podjęcie decyzji bazując wyłącznie na wskazówkach audio, które mogą być
nieco zmieszane. Z drugiej strony, podjęcie właściwej decyzji rozpatrując fonemy /ka/ i /ga/
jest bardziej realne z audio, niż z wideo sygnału. Dla przykładu w języku polskim, używając
wskazówek wideo do podjęcia decyzji, czy osoba wypowiedziała fonem /m/, czy /n/, może
być łatwiejsze niż podjęcie decyzji bazując wyłącznie na wskazówkach audio, jednakże
podjęcie właściwej decyzji rozpatrując fonemy /m/ i /p/ jest bardziej realne z audio, niż z
wideo sygnału.
Powyższe fakty wywarły duży wpływ na sfery rozpoznawania audio-wideo mowy
(ang.
Audio-Visual Speech Recognition
, AVSR), znane również jako automatyczne czytanie z
ruchu warg (ang.
Autamatic Lip-Reading
, ALR), czytanie mowy (ang.
Speech Reading
, SR)
[16,84]. Prace w tej dziedzinie prowadzone są w celu polepszenia zakresu rozpoznawania
automatycznej mowy poprzez ekstrakcję cech z obszaru ust mówcy i połączenie z tradycyjną
mową akustyczną. Takie osiągnięcie zysku jest szczególnie imponujące w hałaśliwym
środowisku, gdzie tradycyjna metoda rozpoznawania audio mowy wypada niezbyt korzystnie.
Zmniejszające się koszty uzyskania wysokiej jakości systemów nagrywających sekwencje
wideo oraz zwiększająca się moc obliczeniowa komputerów pozwalają przypuszczać, iż
5
Plik z chomika:
xyzgeo
Inne pliki z tego folderu:
hmm (2).pdf
(504 KB)
Ewolucyjne_Metory_Uczenia_Ukrytych_Modeli_Markowa (1).pdf
(577 KB)
B2_07-HMM.pdf
(249 KB)
Rozprawa_FaMar.pdf
(11572 KB)
walsh(1).pdf
(254 KB)
Inne foldery tego chomika:
sieci neuronowe
sztuczna inteligencja
Zgłoś jeśli
naruszono regulamin