Metody detekcji zaburzeń mowy

Akustyczna analiza sygnału mowy ma na celu wprowadzenie obiektywnego kryterium pozwalającego na automatyczną detekcję jąkania. Opracowanie skutecznej metody detekcji umożliwi bardziej obiektywne zliczanie wystąpień zaburzenia, wspierając dotychczas stosowane metody oparte na ocenie subiektywnej.
Ze względu na dużą różnorodność jąkania analizy ograniczają się do trzech najczęściej występujących zaburzeń: powtórzeń głosek, sylab i wyrazów, oraz przedłużeń głosek. Dla każdego typu badanego zaburzenia opracowano inne narzędzie służące do jego analizy. Do przeprowadzania analiz zastosowano w badaniach prowadzonych w Politechnice Gdańskiej złożony mechanizm matematyczny wspierany przez komputerowo modelowane algorytmy sieci neuronowych i logikę rozmytą.



Detekcja powtórzeń

Powtórzenia głosek, sylab i wyrazów występują w każdej formie jąkania, zarówno klonicznej, jak i tonicznej. W celu automatycznej detekcji powtórzeń opracowany został algorytm oparty na analizie korelacyjnej. Algorytm składa się z następujących etapów:
  1. parametryzacja mowy ciągłej;
  2. analiza korelacyjna poszczególnych parametrów z użyciem okna czasowego o długości równej czasowi fonacji i zakresie równym maksymalnemu okresowi powtórzeń;
  3. sprawdzenie przekroczenia wartości progowej funkcji autokorelacyjnej.

Procedura analizy rozpoczyna się od dokonania segmentacji sygnału, następnie dla każdego z wyznaczonych segmentów obliczana jest jego energia:


gdzie:
   E - energia ramki (segmentu),
   l - liczba próbek w ramce,
   pi - unormowana wartość kolejnej próbki.

W eksperymentach parametryzacji sygnału mowy dokonanuje się poprzez obliczenie współczynników cepstralnych na skali melowej. Współczynniki cepstralne wyznaczane są ze wzoru:


gdzie:
   Mi - kolejny współczynnik cepstralny na skali melowej,
   i - rząd współczynnika cepstralnego,
   k - numer podpasma,
   Ek - energia przypadająca na podpasmo k.

W celu uniknięcia korelacji sygnału z "momentami ciszy" wprowadzono do algorytmu parametr określający energię sygnału w każdej analizowanej ramce. Zmodyfikowana funkcja autokorelacji ma postać:


gdzie:


   rp - współczynnik korelacji dla ciągów pi i pi+n
   Ei - energia w poszczególnych ramkach,
   l - długość sekwencji korelacyjnej,
   pi - wyznaczony parametr dla i-tej ramki,
   n - odpowiednik czasu wyrażony w ramkach (odległość w ramkach pomiędzy sekwencjami).

Analiza korelacyjna poszczególnych parametrów umożliwia wykrycie miejsca wystąpienia zaburzenia związanego z powtórzeniem poprzez wskazanie maksimum funkcji autokorelacyjnej. Przykład zastosowania funkcji korelacji (dla trzech pierwszych współczynników cepstralnych oraz ich sumy) dla przebiegu czasowego (powtórzenie sekwencji "ad" w słowie "admirał") przedstawiony jest poniżej.


Przebieg czasowy sekwencji "ad_admirał".

Wykres funkcji korelacji dla pierwszego współczynnika cepstralnego.
Wykres funkcji korelacji dla drugiego współczynnika cepstralnego.
Wykres funkcji korelacji dla trzeciego współczynnika cepstralnego.
Wykres funkcji korelacji dla sumy trzech pierwszych współczynników cepstralnych.


Wyniki przeprowadzonych eksperymentów wykazały, że skuteczność automatycznej detekcji powtórzeń wynosi około 77%, a najlepsze rezultaty otrzymuje się dla trzeciego parametru cepstralnego.


Początek tekstu, Detekcja przerw w fonacji, Detekcja przedłużeń samogłosek, Spis zawartości

Detekcja przerw w fonacji

Przerwy w fonacji są następstwem pojawienia się skurczów mięśni artykulacyjnych. Powodują one blokadę uniemożliwiającą wygenerowanie kolejnych dźwięków mowy. W procedurze detekcji przerw w fonacji stosuje się segmentację sygnału mowy, następnie preemfazę 6dB/okt, w celu wyrównania poziomów energetycznych składowych o wyższych częstotliwościach. W uzyskanych w ten sposób przedziałach oblicza się średnią energię sygnału według zależności:


gdzie:
   E - energia ramki (segmentu),
   l - liczba próbek w ramce,
   pi - unormowana wartość kolejnej próbki.

Kolejnym etapem procedury jest określenie dla poszczególnych ramek dwóch poziomów energetycznych - górnego i dolnego. Celem tej operacji jest wyznaczenie stromości zbocza opadającego przed przerwą w fonacji. Poziomy energetyczne określa się oddzielnie dla każdego z analizowanych przypadków. Jako dolną granicę przyjmuje się poziom, poniżej którego występuje jedynie szum, górną granicę stanowi średni poziom fonacji przyjęty na podstawie całego badanego przebiegu fonicznego. W oparciu o linię łączącą wyznaczone poziomy określa się stromość zbocza opadającego przed przerwą w fonacji. Jest ona wyznacznikiem szybkości opadania energii.


Badanie stromości zbocza opadającego przed przerwą w fonacji.

    W przeprowadzonych eksperymentach zauważono, że dla osób nie jąkających się obwiednia funkcji energii występująca przed przerwą w fonacji opada łagodnie, natomiast w przypadkach wadliwie artykułowanych wypowiedzi zbocze opadające funkcji energii jest bardzo strome. Na podstawie wyników doświadczeń stwierdzono, że stromość opadania obwiedni przed przerwą w fonacji mniejsza od 20o oznacza miejsce wystąpienia zaburzenia.


Początek tekstu, Detekcja powtórzeń, Detekcja przedłużeń samogłosek, Spis zawartości

Detekcja przedłużeń samogłosek

Procedura detekcji przedłużeń samogłosek oparta jest na automatycznym rozpoznawaniu samogłosek w ciągłym strumieniu fonemów. Do detekcji wykorzystuje się zmodyfikowaną metodę analizy cepstralnej. Ze względu na okresowy charakter widma samogłosek wynikający z dużej zawartości składowych harmonicznych, można w analizie cepstralnej śledzić maksimum pojawiające się dla wyższych współczynników cepstralnych. Pozwala to na wyodrębnienie fragmentów będących samogłoskami, a w szczególności umożliwia detekcję dłuższych odcinków czasowych, czyli przedłużonych samogłosek.
W celu uwypuklenia maksimum odpowiadającego za ton krtaniowy, podczas obliczeń cepstrum ograniczono szerokość pasma od góry, aby uwzględnić tylko tę część widma, która zawiera istotne składowe harmoniczne tonu krtaniowego. Pominięto natomiast górną część pasma, mającą minimalny związek z tonem krtaniowym. Logarytm widma po ograniczeniu pasma pokazano na rysunku:


Wykres logarytmu widma głoski "o" po ograniczeniu pasma do 2,75 kHz.

Dodatkowo w algorytmie wprowadzono procedurę, która dokonuje kompresji dynamiki widma przed obliczeniami współczynników cepstralnych. Ma to na celu uwypuklenie słabszych składowych harmonicznych na tle szumu i poprawienie widoczności maksimum cepstralnego. Efekt ten uzyskuje się poprzez zastosowanie normalizacji widma względem jego górnej i dolnej obwiedni, na podstawie następujących zależności:


gdzie:
   Gi - kolejne wartości górnej obwiedni logarytmu widma,
   Di - kolejne wartości dolnej obwiedni logarytmu widma,
   Ai - kolejne wartości logarytmu widma,
   rf - rozdzielczość częstotliwościowa,
   cf - stała całkowania.

Procedura ta daje w wyniku dwie obwiednie, w obrębie których zawarte są wszystkie wartości analizowanego widma. Rezultaty tych operacji jako przebieg linii normalizujących zostały przedstawione na rysunkach poniżej.


Wykres górnej obwiedni logarytmu widma głoski "o". Krzywa ta wyznacza górne wartości normalizujące.


Wykres dolnej obwiedni logarytmu widma głoski "o". Krzywa ta wyznacza dolne wartości normalizujące.

Normalizacja widma dokonywana jest zgodnie ze wzorem:


gdzie:
   Amax - maksymalna wartość widma,
   Amin - minimalna wartość widma,
   Gi, Di - odpowiednio wartości górnej i dolnej obwiedni logarytmu widma.

Rezultat normalizacji widma przedstawiono na rysunku.


Znormalizowane widmo głoski "o", które pozwala na lepszą detekcję tonu krtaniowego.

Następnie wyznacza się współczynniki cepstrum Cr według zależności:


gdzie:
r - rząd współczynnika cepstralnego, lpr - liczba próbek w ramce,
i - numer kolejnej próbki widma, fp - częstotliwość próbkowania,
Ai - amplituda próbki i, fc - maksymalna częstotliwość. uwzględniona w analizie cepstralnej

Obliczenie cepstrum po normalizacji widma zwiększa maksimum odpowiadające za dźwięczność badanego fragmentu sygnału mowy.
Ostatnim etapem procedury detekcji przedłużeń jest wygładzenie cepstrum:


gdzie:
Cr - kolejne współczynniki cepstralne, lpr - liczba próbek w ramce,
r - rząd współczynnika cepstralnego, fp - częstotliwość próbkowania,
n - indeks częstotliwości, fc - maksymalna częstotliwość uwzględniona w analizie cepstralnej.

Na podstawie otrzymanych wyników przeprowadzana jest detekcja lokalnych maksimów wygładzonej funkcji widma, które przy właściwie dobranym rzędzie cepstrum są kolejnymi formantami badanej samogłoski.
Dodatkowo, podczas dokonywania analizy tonu krtaniowego zauważono, że częstotliwość tonu krtaniowego ulega zwiększeniu w czasie zaburzenia związanego z przedłużaniem. Badania porównawcze odpowiadających sobie fragmentów nagrań wadliwie artykułowanych wypowiedzi i wypowiedzi skorygowanych przy pomocy metody FAF wykazały, że zastosowanie algorytmu korygującego nie powoduje zmiany częstotliwości tonu krtaniowego, a nawet ją nieznacznie obniża. Zależność ta może być przyczyną dużej skuteczności metody FAF w porównaniu z innymi algorytmami korekcji (np. przy zastosowaniu metody DAF obserwuje się zwiększenie częstotliwości tonu krtaniowego).


Początek tekstu, Detekcja powtórzeń, Detekcja przerw w fonacji, Spis zawartości