Przetwarzanie mowy
Mowa jest traktowana przez ludzi jako najprostszy i najbardziej rozpowszechniony środek porozumiewania się. Dzięki najnowszym osiągnięciom techniki przekazywanie mowy jest możliwe nie tylko na małych odległościach ale również pomiędzy dwoma dowolnie wybranymi zakątkami na kuli ziemskiej ( a nawet w kosmosie).
Sygnał mowy – możemy potraktować jako element fonetyczny składający się z głosek , sylab , wyrazów , zdań . W przypadku przesyłania i przetwarzania mowy za pomocą kanału komunikacyjnego traktujemy ją jako sygnał akustyczny(dźwiękowy) .
Sygnał ten jest zamieniany przez odpowiednie przetworniki na impuls elektryczny.
Odbiorca otrzymuje sygnał po jego uprzednim wzmocnieniu i po przejściu przez przetworniki elektroakustyczne . Urządzeniami odbiorczymi (wyjściowymi) do odbioru mowy mogą być na przykład : słuchawki , głośniki.
Sygnał mowy jest w większości przypadków zakodowaną wiadomością ciągłą którą można wyrazić ze z góry określoną dokładnością za pomocą skończonej liczby elementów dyskretnych . Przekazywanie sygnału mowy można sprowadzić do przekazywania wiadomości skokowej(dyskretnej).
Obecnie szerokie zastosowanie znalazły komputerowe systemy rozpoznawania mowy :
- analogowe
- cyfrowe
- hybrydowe
Jednak sygnał na wejściu jest zawsze analogowy , na wyjściu zawsze cyfrowy.
Analogowe przetwarzanie mowy realizowane jest przez dokonanie dolnoprzepustowej filtracji ( odcięcie składowych o częstotliwości większej od częstotliwości Nyguista aby widma nie nakładały się na siebie). Następnie sygnał jest poddawany przetwarzaniu analogowo – cyfrowemu.
Wadą analogowego przetwarzania mowy to wymagana duża moc obliczeniowa i stosunkowo długi czas obliczeń potrzebnych na rozpoznanie mowy. Jednakże produkowane obecnie szybkie jednostki obliczeniowe wyraźnie minimalizują tą wadę.
Wielką przeszkodę dla pierwszych przetworników mowy było dopasowanie zjawisk wiążących się ze sposobem wytwarzania i odbierania przez człowieka z procesem odbioru informacji przez komputer.
Trzy podstawowe urządzenia do odbioru i przetwarzania sygnału mowy przez komputer:
- mikrofon : przetwarza wartość ciśnienia akustycznego na sygnał elektryczny
- układ przetwarzania wstępnego : wzmacniacze i filtry
- przetwornik A/C – zamienia ciągły sygnał elektryczny na wartość cyfrową
Mikrofon – przetwornik elektroakustyczny w którym zachodzi zamiana En fali dźwiękowej na En sygnału elektrycznego za pośrednictwem En mechanicznej.
Wykorzystując mikrofon jako przetwornik zachodzi niebezpieczeństwo nakładania się szumów otoczenia na przekazywany do mikrofonu sygnał mowy ( szczególnie w mikrofonach o dużej czułości).
Metody eliminacji szumów :
umieszczenie nadajnika (nadawcy) w akustycznie ekranowanym pomieszczeniu np. studio nagrań
eliminacja szumów na poziomie mikrofonu , stosowanie mikrofonów kontaktowych
Przetwarzanie wstępne – początkowa obróbka sygnału której celem jest przystosowanie sygnału w jak najprostszy sposób do dalszej obróbki w przetworniku A/C ( wycinanie składowych zakłócających)
Etapy przetwarzania wstępnego:
wzmocnienie sygnału głównego
filtracja analogowa ( selekcja i wybór użytecznych pasm częstotliwości )
usuwanie szumów
redukcja echa
normalizacja amplitud
Zalety płynące z filtracji sygnału:
ograniczenie szerokości pasma
polepszenie stosunku sygnałów do szumów
wygładzenie sygnału
ujednolicenie widma
Przetwarzanie A/C odbywa się w pamięci komputera . Sygnał mowy jako przebieg ciągły przyjmuje wartości napięcia dlatego jest konieczność przetwarzania informacji z postaci ciągłej do postaci zrozumiałej prze komputer ( binarnej).
Przetwarzanie A/C składa się z trzech etapów:
próbkowanie ( dyskretyzacja w przedziale czasu)
dyskretyzacja amplitudowa ( kwantyzacja)
kodowanie sygnału w postaci binarnej
Parametry niezbędne do poprawnego działania systemu rozpoznawania mowy :
postać sygnału wprowadzanego do systemu ( szerokość pasma częstotliwości i jej próbkowania)
dokładność odwzorowania amplitudy sygnału ( równomierny lub skompensowany rozkład amplitud)
rodzaj przetwarzania ( analogowe z pomocą filtrów , cyfrowe z pomocą algorytmów FFT)
dobór czasu całkowania sygnału
Zagadnienia techniczne wpływające na jakość przetwarzania mowy:
rodzaj filtru :
bierny
aktywny
rezonansowy
drabinkowy
LC , RC
metoda uśredniania
analogowa
cyfrowa
rodzaj konwertera
bezpośredni
całkujący
Najbardziej rozpowszechnione i znane oprogramowanie do rozpoznawania mowy :
Dragon Naturraly Speaking firmy IBM
Voice Xpress Plus
Free Speaking 2000 firmy Philips
Lektor 5.0 firmy Drive
Interfejs graficzny jednego z dostępnych komputerowych syntezatorów mowy.
Mowa jest traktowana przez ludzi jako najprostszy i najbardziej rozpowszechniony środek porozumiewania się. Dzięki najnowszym osiągnięciom techniki przekazywanie mowy jest możliwe nie tylko na małych odległościach ale również pomiędzy dwoma dowolnie wybranymi zakątkami na kuli ziemskiej (a nawet w kosmosie).
catastros.ops