04.notatki3.pdf

(816 KB) Pobierz
Badania identyfikacyjne mówcy
Instytut Ekspertyz Sądowych, Ekspertyza fonoskopijna, Kraków, 25 października 2006 r.
(materiały dodatkowe)
Badania identyfikacyjne mówcy
Ustalenie tożsamości rozmówców stanowi zwykle ostatni element w procesie rekonstrukcji
przebiegu przedmiotowego zdarzenia, dokonywanego na podstawie analizy dowodowego nagrania.
Podczas badań identyfikacyjnych poszczególne grupy wypowiedzi, wyodrębnione podczas oceny
spójności materiału dowodowego, zostają poddane badaniom identyfikacyjnym, w zestawieniu ze
zgromadzonym materiałem porównawczym. To wyniki porównawczych badań identyfikacyjnych,
między innymi, pozwalają prowadzącemu postępowanie sformułować akt oskarżenia względem
konkretnych osób. Znaczenie zatem badań identyfikacyjnych dla procesowej analizy przedmiotowego
zdarzenia jest ogromne. Uzasadnione więc wydaje się dążenie prowadzących postępowanie do
uzyskiwania jednoznacznych i kategorycznych wniosków, podsumowujących ekspertyzy w zakresie
identyfikacji mówcy [12]. Łatwość dowodowej oceny opinii kategorycznych nie może jednak
przysłaniać ograniczeń metodologicznych, związanych z identyfikacją osób na podstawie
zarejestrowanych wypowiedzi. Identyfikacja mówcy dokonywana jest bowiem przy kilku
założeniach-warunkach, których prawdziwość, na co należy zwrócić uwagę, nie została jak
dotychczas poddana empirycznej weryfikacji.
Pierwsze z założeń, leżących u podstaw identyfikacji mówcy głosi, że m o w a k ażdego
człowieka indywidualizuje go, tzn. że istnieje relacja pomiędzy osobą a jego mową. Relacja ta
wynika m.in. z tego, że mówiąc, każdy z nas posługuje się swoim aparatem mownym z właściwą mu
budową anatomiczną, jego fizycznymi możliwościami i ograniczeniami. Jednocześnie mówiąc,
człowiek aktualizuje nawyki artykulacyjne i mowne, jakie nabył w procesie socjalizacji,
tzn. w procesie uczenia się, także języka, w środowisku, w którym się wychowywał i dorastał. Przy
czym zaznaczyć należy, że dychotomiczne przedstawienie źródeł zróżnicowania mowy jest pewnym
systematyzującym uproszczeniem. W trakcie mówienia zarówno uwarunkowania anatomiczne aparatu
mowy jak i nawyki artykulacyjne wpływają jednocześnie na to, że konkretna osoba wymawia tę
głoskę czy wyraz inaczej aniżeli inna. Zróżnicowanie osobnicze mowy, wynikające z budowy
anatomicznej artykulatorów oraz nawyków mownych, wykształconych w dużej mierze poprzez
naśladownictwo najbliższego otoczenia, np. rodziców, pozwalają twierdzić, iż mowa każdej osoby
jest, w pewnym stopniu, cechą ją indywidualizującą [11]. Przekonanie o słuszności tego twierdzenia
wydaje się łatwe do zaakceptowania, jeżeli przywołamy znane każdemu doświadczenie
rozpoznawania rozmówcy, np. rozmowy telefonicznej. Jednakże twierdzenie o niepowtarzalności
mowy każdej żyjącej osoby, zawężając, mieszkającej nawet tylko w Polsce, nie zostało poddane
naukowej weryfikacji. Nie jest również wiadome, jak bardzo mowa jednej osoby jest różna od mowy
innej osoby, a także, czy można wykluczyć, aby dwie osoby były nierozróżnialne na podstawie
zachowań mownych 1 [1, 9].
Drugie z założeń, przy którym dokonywana jest identyfikacja mówcy, mówi, iż różnice
pomiędzy mówcami są większe aniżeli zmienność mowy konkretnej osoby. Jest to
bardzo istotne założenie wskazujące jednocześnie na kolejny problem, jaki musi uwzględnić
wykonujący badania identyfikacyjne, mianowicie zagadnienie dużej, niestety, jak na obiekt badań
kryminalistycznych, zmienności. Doświadczenie zmienności mowy jest również łatwo potwierdzane
w codziennej obserwacji. Prowadzimy przecież rozmowy w różny sposób, tzn. używamy nieco innych
słów, stosujemy bardziej lub mniej rozbudowane konstrukcje składniowe, wreszcie mniej lub bardziej
zważamy na to, jak wymawiamy poszczególne słowa, w zależności m.in. od stopnia oficjalności
i formalności rozmowy, zaangażowania w wymianę zdań, stosunku do współrozmówcy, czy nawet
naszego stanu zdrowia 2 .
1 Przykładem możliwości rozróżnienia mówców audytywnie bardzo podobnych są m.in. badania bliźniąt monozygotycznych.
Na ich podstawie można stwierdzić, iż obok par różniących się wyraźnie akustycznie, np. w zakresie trzeciego i czwartego
formantu, są pary różniące się nawykami artykulacyjnymi jedynie w odniesieniu do kilku głosek, co wynika zwykle
z posługiwania się innym aniżeli podstawowym alofonem spółgłoskowym lub samogłoskowym, a także pary bardzo trudne
do rozróżnienia pomimo szczegółowej analizy akustycznej i analizy ich nawyków wymawianiowych.
2 Próbą zignorowania oczywistego faktu, iż mowa podlega znacznym fluktuacjom, była próba identyfikacji mówcy na
podstawie bezpośredniego porównywania obrazów spektrograficznych, np. wyrazów, per analogiam do metody identyfikacji
na podstawie odcisku linii papilarnych. Metoda tzw. akustycznego odcisku palca, nie mająca współcześnie miejsca
w badaniach kryminalistycznych, co należy stwierdzić z całą stanowczością, pobudza nadal wyobraźnię swą prostotą
i obrazowością, na co wskazuje jej częste eksponowanie w filmach.
Agata Trawińska, atrawa@ies.krakow.pl
Instytut Ekspertyz Sądowych, Ekspertyza fonoskopijna, Kraków, 25 października 2006 r.
(materiały dodatkowe)
Ryc. 1. Artykulacyjno-akustyczny opis polskich samogłosek wyekstrahowanych z fonetycznie różnych kontekstów
z wypowiedzi kobiety (łącznie 582 samogłosek, w tym 133 realizacje samogłoski [a], 174 – [o], 17 – [u], 109 –
[e], 93 – [i] oraz 56 – [y]) .
Agata Trawińska, atrawa@ies.krakow.pl
451544138.001.png
Instytut Ekspertyz Sądowych, Ekspertyza fonoskopijna, Kraków, 25 października 2006 r.
(materiały dodatkowe)
Wobec współczesnego stanu wiedzy i zaawansowania technologicznego zaskakujący wydaje się
brak naukowej odpowiedzi pozwalającej zweryfikować wskazane uprzednio założenia, a tym samym
umożliwiającej zbliżenie się do określenia dowodowej wartości badań identyfikacyjnych mówcy.
Przyczyny takiego stanu są jednak bardzo proste. Zarówno w przeszłości jak i obecnie osoby
zajmujące się kryminalistyczną identyfikacją mówcy zasadniczo wywodzą się z dwóch tradycji
badawczych, tj. fonetycznej lub szerzej językoznawczej oraz technicznej, związanej z przetwarzaniem
sygnału mowy, w tym zwłaszcza z rozpoznawaniem i syntezą mowy. Fonetyków i językoznawców
mowa interesuje jako realizacja systemu, wszelkie zatem różnice osobnicze, tzn. wszelkie nietypowe
nawyki mowne, postrzegają jako informację nieistotną, wręcz niepożądaną. Dlatego też nawet
dialektologia i socjolingwistyka, opisujące zróżnicowanie geograficzne i społeczne języka, często
sięgające także po opis akustyczny rozwarstwienia języka, wypracowały liczne procedury
normalizacyjne, aby wyeliminować informacje związane z budową anatomiczną aparatu mownego,
szczególnie zaś z budową wiązadeł głosowych [6]. Badania z kolei nad rozpoznawaniem i syntezą
mowy przez bardzo długi czas koncentrowały się na wyodrębnieniu abstrakcyjnych modeli np. dla
poszczególnych dźwięków mowy. Także i podczas tych badań informacje o osobniczych realizacjach
modeli głosek były eliminowane, utrudniały bowiem prawidłową pracę np. syntezatorów mowy.
Niewątpliwie rozwój każdej z tych dziedzin, tj. zarówno językoznawstwa jak i inżynierii mowy
dostarczył ogromu wiedzy, bez której niemożliwe wydaje się dziś myślenie o identyfikacji mówcy.
Trzeba jednak zauważyć, że wspomniane obszary wiedzy dotychczas nie wspierały się
w wypracowaniu kryminalistycznych metod identyfikacji mówcy. Doprowadziło to do stanu,
w którym fonetycy opisywali mówcę, posługując się tradycyjnym opisem artykulacyjnym oraz
akustyczną analizą spektralną segmentów wokoidalnych, tzn. głównie analizą formantową
samogłosek, podczas gdy inżynierowie dźwięku parametryzowali mowę poprzez tzw. współczynniki
cepstralne, wyznaczane zwykle dla większych jednostek mowy niż głoska, np. kilkunastu
wypowiedzi [7]. Dopiero w ostatnich latach w ramach kryminalistycznej identyfikacji mówcy
zaczynają pojawiać się prace próbujące połączyć dokonania obydwu dziedzin nauki [10]. Wspólne
działania mają m.in. na celu ustalenie, które elementy z obydwu modeli analitycznych pozwalają
wyodrębnić dystynktywne cechy mówcy, aby następnie wypracować właściwy sposób ich ekstrakcji
i parametryzacji, a także nadać poszczególnym cechom odpowiednie miary istotności. Aktualnie nie
ma bowiem pełnej jasności co do tego, w jaki sposób cechy osobnicze są kodowane w sygnale mowy,
a zatem i brak jednoznacznej odpowiedzi, na pytanie, która z propozycji, tzn. tradycyjna,
językoznawcza, czy też wywodząca się z rozpoznawania i syntezy mowy, jest metodą bardziej
specyficzną w odniesieniu do kryminalistycznej identyfikacji mówcy.
Poza wspomnianymi dotychczas ograniczeniami, wynikającymi z niedostatecznego ustalenia
naukowych podstaw kryminalistycznych badań identyfikacyjnych mówcy, trzeba podkreślić, iż
badania te przeprowadzane są zawsze w odniesieniu do z a r e j e s t r o w a n e j m o w y . Dowodowe
nagrania zaś utrwalane są przy użyciu różnej jakości urządzeń, np. analogowych magnetofonów
zasilanych bateryjnie, co niejednokrotnie skutkuje powstawaniem niestabilności przesuwu taśmy
i w konsekwencji ogranicza możliwość wiarygodnej ekstrakcji parametrów akustycznych mowy lub
też do rejestracji dowodowego zdarzenia wykorzystywany jest tryb tzw. wydłużonego lub
zwielokrotnionego czasu nagrywania, co z kolei skutkuje zawężeniem pasma, w jakim utrwalana jest
m.in. mowa. W przypadku zaś urządzeń cyfrowych użytkownicy bardzo chętnie stosują rejestrację
z wysokim stopniem kompresji sygnału, która m.in. wpływa na ograniczenie zmienności chwilowych
wartości parametrów akustycznych, np. w obrębie struktury formantowej. Wymienione, jak i wiele
innych parametrów technicznych wybranych podczas rejestracji dowodowego zdarzenia nie pozostają
zatem bez wpływu na możliwość dokonania dystynktywnego i zarazem wiarygodnego opisu mówcy
dowodowych wypowiedzi 3 [5].
3 Najprostszym a zarazem bardzo dobrze opracowanym zagadnieniem jest wpływ telefonii na możliwość wykonania badań
identyfikacyjnych mówcy. Rejestrując nagranie transmitowane za pośrednictwem telefonii należy spodziewać się m.in.:
ograniczenia pasma mowy, także zniekształceń w najniższym zakresie pasma (co odpowiada zakresowi występowania
pierwszego formantu samogłosek zamkniętych i półotwartych) oraz najwyższych zarejestrowanych częstotliwości (co
zwykle, dla głosów męskich odpowiada położeniu czwartego, a w przypadku głosów żeńskich nawet trzeciego formantu), jak
również ewentualnego pojawienia się nieliniowych zniekształceń, wynikających nie tylko z charakterystyki samego pasma
transmisyjnego, co także z charakterystyki np. mikrofonów i głośników użytych aparatów telefonicznych.
Agata Trawińska, atrawa@ies.krakow.pl
Instytut Ekspertyz Sądowych, Ekspertyza fonoskopijna, Kraków, 25 października 2006 r.
(materiały dodatkowe)
Z uwagi na znaczny zakres możliwości metodologicznych, aparaturowych, a także
interpretacyjnych, z jakimi można spotkać się w ekspertyzach identyfikacyjnych opracowywanych nie
tylko na świecie, ale także i w Polsce, poniżej zostanie zaprezentowana najbardziej powszechna
metoda kryminalistycznej identyfikacji mówcy, tj. metoda językowo-pomiarowa z wyjaśnieniem
podstawowych dla niej pojęć 4 . Wydaje się bowiem, że wobec braku jednoznacznych rozstrzygnięć
metodologicznych, taki sposób omówienia badań identyfikacyjnych mówcy umożliwi wymiarowi
sprawiedliwości dokonanie oceny nie tylko formalnej, ale i merytorycznej uzyskiwanych opinii.
Materiał dowodowy
Wbrew rozpowszechnionym opiniom, to nagranie dowodowe decyduje o możliwości wykonania
badań identyfikacyjnych mówcy, nie zaś materiał porównawczy. Pobierający materiał porównawczy,
właściwie powinien to być biegły powołany do wykonania badań identyfikacyjnych, ma możliwość
i obowiązek przygotowania się do tej czynności i należytego jej przeprowadzenia, aby uzyskać
reprezentatywne dla konkretnego mówcy nagranie porównawcze. Natomiast na to, jakie jest
dowodowe nagranie nie ma, po tym jak zostało ono zarejestrowane, żadnego wpływu. W związku
ztym dla skuteczności, a w niektórych przypadkach także i celowości zleconych badań
identyfikacyjnych mówcy bardzo ważna jest wstępna ocena materiału dowodowego.
Analizując przekazany do badań materiał dowodowy, biegły powinien ustalić, czy , zgodnie ze
stosowaną przez niego metodą, przedmiotowe wypowiedzi umożliwiają wykonanie zleconych
badań . W odniesieniu do m e t o d y językowo-pomiarowej, jaką posługują się m.in. trzy
opiniujące dla potrzeb polskiego wymiaru sprawiedliwości instytucje, tj. Centralne Laboratorium
Kryminalistyczne Komendy Głównej Policji w Warszawie, Zakład Kryminalistyki i Chemii
Specjalnej Agencji Bezpieczeństwa Wewnętrznego w Warszawie oraz Instytut Ekspertyz Sądowych
wKrakowie, oznacza to ustalenie, czy w obrębie dowodowych wypowiedzi występują
dystynktywne cechy jęz y k o w e oraz czy jakość nagrania pozwala dokonać wiarygodnej
ekstrakcji parametrów akustycznych mowy.
Z perspektywy kryminalistycznej identyfikacji mówcy dystynktywne cechy językowe to,
wsposób podstawowy, takie cechy, które występują w każdej zarejestrowanej wypowiedzi,
niezależnie od jej długości, treści i kontekstu sytuacyjnego oraz które w najmniejszym stopniu mogą
być świadomie zniekształcane przez mówcę, np. w celu uniknięcia rozpoznania. Kryteria te spełniają
cechy artykulacyjne. Aby przeanalizować, jak konkretna osoba wymawia samogłoskę [a]
np. w prawostronnym kontekście głosek palatalnych, tj. czy i w jakim stopniu następuje proces
dyftongizacji tej samogłoski, niezbędnych jest zaledwie kilka dowodowych wymówień, zwykle kilka
wyrazów. Jednocześnie to, jak mówca wymawia samogłoskę [a] w prawostronnym kontekście
palatalnym jest w niewielkim stopniu przez niego uświadomione, a przez to i trudne do spójnego
zniekształcenia w obrębie choćby trzech spontanicznie wypowiedzianych zdań. Każda zaś inna cecha
języka z wyższych poziomów jego opisu, np. leksyka czy składnia, wymaga zarówno obszerniejszego
materiału do analizy, w większym stopniu podlega świadomej kontroli mówcy i równocześnie
w większym stopniu jest motywowana sytuacją komunikacyjną, a więc m.in. stopniem oficjalności
rozmowy, czy zażyłością osób dyskutujących.
Na podstawie analizy językowej dowodowych wypowiedzi, biegły równocześnie ustala, czy
podczas pobierania materiału porównawczego powinien poświęcić więcej uwagi wypowiedziom
spontanicznym, czy tzw. testom zdaniowym, tożsamym treściowo z wybranymi kwestiami
dowodowymi. Jeżeli bowiem w obrębie dowodowych wypowiedzi występują liczne cechy
artykulacyjne, mające charakter systemowych, a dodatkowo niektóre z nich związane są
z nietypowym nawykiem wymawianiowym, wówczas pobierając materiał porównawczy, poświęci
większą uwagę uzyskaniu spontanicznych wypowiedzi. Swobodne wypowiedzi mówcy pozwolą
bowiem zestawić pod względem cech artykulacyjnych obydwa materiały, tj. dowodowy
i porównawczy, a przede wszystkim w oparciu o wypowiedzi porównawcze, możliwe będzie ustalenie
reprezentatywności poszczególnych cech oraz zakresu ich zmienności. Jeżeli natomiast na podstawie
4 Metoda językowo-pomiarowa jest również uznana i stosowana szeroko w Europie, m.in. przez ekspertów Wielkiej Brytanii,
Austrii, Niemiec. Obok niej nieco mniej licznie reprezentowane są ośrodki stosujące półautomatyczne metody identyfikacji
mówcy, np. Francja, Włochy oraz metody w pełni automatyczne, np. Hiszpania, Szwajcaria.
Agata Trawińska, atrawa@ies.krakow.pl
Instytut Ekspertyz Sądowych, Ekspertyza fonoskopijna, Kraków, 25 października 2006 r.
(materiały dodatkowe)
analizy językowej dowodowych wypowiedzi, biegły ustali, iż charakteryzuje je niewielka liczba cech
artykulacyjnych lub że odnotowane cechy są cechami bardzo powszechnymi, np. z uwagi na ich
geograficzne uwarunkowanie, wówczas ciężar ewentualnych badań identyfikacyjnych musi zostać
przesunięty na analizę parametrów akustycznych mowy.
Oceniając natomiast materiał dowodowy z uwagi na możliwość dokonania w i a r y godnej
e k s t r a k c j i p a r a m e t r ó w a k u s t y c z n y c h m o w y , w pierwszej kolejności biegły przeprowadza
analizę charakterystyki pasma nagrania, określa, w jakim zakresie częstotliwości zostały utrwalone
dowodowe wypowiedzi oraz ustala ich obszerność, tj. dokonuje selekcji tych kwestii, które mogłyby
być przedmiotem analizy akustycznej. Do cech akustycznych mowy, za pomocą których, zgodnie
z metodą językowo–pomiarową, opisywana jest mowa należą częstotliwość podstawowa tonu
krtaniowego oraz struktura formantowa samogłosek. C zęstotliwość podstawowa tonu
k r t a n i o w e g o , oznaczana skrótem F0, jest parametrem akustycznym mowy związanym m.in.
z budową, tj. długością i masą wiązadeł głosowych. Jest to parametr, który można wyznaczyć jedynie
dla segmentów dźwięcznych, bowiem tylko w czasie ich artykulacji wiązadła głosowe, wibrując,
uczestniczą w wytwarzaniu fali dźwiękowej, która następnie w komorach nadkrtaniowych podlega
dalszej modulacji. Częstotliwość tonu krtaniowego stanowi relatywnie słaby parametr różnicujący
mówców. Badania populacyjne wykazały bowiem, że większość np. mężczyzn posiada średnią
wartość częstotliwości podstawowej tonu krtaniowego wynoszącą ok. 90–140 Hz. Zatem jedynie przy
uzyskaniu wartości średniej niższej aniżeli np.85 Hz, parametr ten może być traktowany jako cecha
dystynktywna. Tylko bowiem około dwóch procent mężczyzn posiada średnią wartość F0 niższą
aniżeli 90 Hz [9]. Trzeba również dodać, iż parametr ten jest bardzo zależny od stopnia
zaangażowania w prowadzona rozmowę oraz głośności wypowiedzi, jak też ulega znacznym zmianom
w obrębie konkretnego zdarzenia językowego [4]. Poniżej zamieszczono przykład, ilustrujący
zmienność częstotliwości podstawowej tonu krtaniowego w obrębie pojedynczego pytania,
wypowiadanego w sposób naturalny przez mężczyznę.
Ryc. 2. Częstotliwość podstawowa tonu krtaniowego (F0) wyekstrahowana z wypowiedzi mężczyzny (zdanie
pytające).
Drugim parametrem uwzględnianym w tradycyjnym, akustycznym opisie mowy osoby
identyfikowanej jest s t r u k t u r a f o r m a n t o w a s a m o gło s e k i grup wokoidalnych, czyli połączeń,
Agata Trawińska, atrawa@ies.krakow.pl
451544138.002.png
Zgłoś jeśli naruszono regulamin