Przetwarzanie mowy.doc

(55 KB) Pobierz
Przetwarzanie mowy

Przetwarzanie mowy

 

Mowa jest traktowana przez ludzi jako najprostszy i najbardziej rozpowszechniony środek porozumiewania się. Dzięki najnowszym osiągnięciom techniki przekazywanie mowy jest możliwe nie tylko na małych odległościach ale również pomiędzy dwoma dowolnie wybranymi zakątkami na kuli ziemskiej ( a nawet w kosmosie).

 

Sygnał mowy – możemy potraktować jako element fonetyczny składający się z głosek , sylab , wyrazów , zdań . W przypadku przesyłania i przetwarzania mowy za pomocą kanału komunikacyjnego traktujemy ją jako sygnał akustyczny(dźwiękowy) .

 

Sygnał ten jest zamieniany przez odpowiednie przetworniki na impuls elektryczny.

Odbiorca otrzymuje sygnał po jego uprzednim wzmocnieniu i po przejściu przez przetworniki elektroakustyczne . Urządzeniami odbiorczymi (wyjściowymi) do odbioru mowy mogą być na przykład : słuchawki , głośniki.

 

Sygnał mowy jest w większości przypadków zakodowaną wiadomością ciągłą którą można wyrazić ze z góry określoną dokładnością za pomocą skończonej liczby elementów dyskretnych . Przekazywanie sygnału mowy można sprowadzić do przekazywania wiadomości skokowej(dyskretnej).

 

Obecnie szerokie zastosowanie znalazły komputerowe systemy rozpoznawania mowy :

-          analogowe

-          cyfrowe

-          hybrydowe

Jednak sygnał na wejściu jest zawsze analogowy , na wyjściu zawsze cyfrowy.

 

Analogowe przetwarzanie mowy realizowane jest przez dokonanie dolnoprzepustowej filtracji ( odcięcie składowych o częstotliwości  większej od częstotliwości Nyguista aby widma nie nakładały się na siebie). Następnie sygnał jest poddawany przetwarzaniu analogowo – cyfrowemu.

 

Rozmiar: 3634 bajtów

Wadą analogowego przetwarzania mowy to wymagana duża moc obliczeniowa i stosunkowo długi czas obliczeń potrzebnych na rozpoznanie mowy. Jednakże produkowane obecnie szybkie jednostki obliczeniowe wyraźnie minimalizują tą wadę.

Wielką przeszkodę dla pierwszych przetworników mowy było dopasowanie zjawisk wiążących się ze sposobem wytwarzania i odbierania przez człowieka z procesem odbioru informacji przez komputer.

 

Trzy podstawowe urządzenia do odbioru i przetwarzania sygnału mowy przez komputer:

-          mikrofon : przetwarza wartość ciśnienia akustycznego na sygnał elektryczny

-          układ przetwarzania wstępnego : wzmacniacze i filtry

-          przetwornik A/C – zamienia ciągły sygnał elektryczny na wartość cyfrową

 

Mikrofon – przetwornik elektroakustyczny w którym zachodzi zamiana En fali dźwiękowej na  En sygnału elektrycznego za pośrednictwem En mechanicznej.

Wykorzystując mikrofon jako przetwornik zachodzi niebezpieczeństwo nakładania się szumów otoczenia na przekazywany do mikrofonu sygnał mowy ( szczególnie w mikrofonach o dużej czułości).

 

Metody eliminacji szumów :

umieszczenie nadajnika (nadawcy) w akustycznie ekranowanym pomieszczeniu np. studio nagrań

eliminacja szumów na poziomie mikrofonu , stosowanie mikrofonów kontaktowych

 

Przetwarzanie wstępne – początkowa obróbka sygnału której celem jest przystosowanie sygnału w jak najprostszy sposób do dalszej obróbki w przetworniku A/C ( wycinanie składowych zakłócających)

 

Etapy przetwarzania wstępnego:

wzmocnienie sygnału głównego

filtracja analogowa ( selekcja i wybór użytecznych pasm częstotliwości )

usuwanie szumów

redukcja echa

normalizacja amplitud

 

Zalety płynące z filtracji sygnału:

ograniczenie szerokości pasma

polepszenie stosunku sygnałów do szumów

wygładzenie sygnału

ujednolicenie widma

 

   

Przetwarzanie A/C odbywa się w pamięci komputera . Sygnał mowy jako przebieg ciągły przyjmuje wartości napięcia dlatego jest konieczność przetwarzania informacji z postaci ciągłej do postaci zrozumiałej prze komputer ( binarnej).

 

Przetwarzanie A/C składa się z trzech etapów:

próbkowanie ( dyskretyzacja w przedziale czasu)

dyskretyzacja amplitudowa ( kwantyzacja)

kodowanie sygnału w postaci binarnej

 

Parametry niezbędne do poprawnego działania systemu rozpoznawania mowy :

postać sygnału wprowadzanego do systemu ( szerokość pasma częstotliwości i jej próbkowania)

dokładność odwzorowania amplitudy sygnału ( równomierny lub skompensowany rozkład amplitud)

rodzaj przetwarzania ( analogowe z pomocą filtrów , cyfrowe z pomocą algorytmów FFT)

dobór czasu całkowania sygnału

 

  Zagadnienia techniczne wpływające na jakość przetwarzania mowy:

 

rodzaj filtru :

bierny

aktywny

rezonansowy

drabinkowy

LC , RC

 

metoda uśredniania

analogowa

cyfrowa

 

rodzaj konwertera

bezpośredni

całkujący

 

Najbardziej rozpowszechnione i znane oprogramowanie do rozpoznawania mowy :

Dragon Naturraly Speaking firmy IBM

Voice Xpress Plus

Free Speaking 2000 firmy Philips

Lektor 5.0 firmy Drive

 

 

 

Interfejs graficzny jednego z dostępnych komputerowych syntezatorów mowy.

 

 

 

 

Mowa jest traktowana przez ludzi jako najprostszy i najbardziej rozpowszechniony środek porozumiewania się. Dzięki najnowszym osiągnięciom techniki przekazywanie mowy jest możliwe nie tylko na małych odległościach ale również pomiędzy dwoma dowolnie wybranymi zakątkami na kuli ziemskiej (a nawet w kosmosie).
 

 

...
Zgłoś jeśli naruszono regulamin