Характеристики четвёртой форманты лежат в основе биометрического образа личности, используемого в системе аутентификации по голосу. Их выделение осуществляется посредством специального программного модуля, разработанного авторами статьи. В ходе эксперимента, участниками которого стали 7 человек, их биометрические образы были выделены с использованием разработанного программного модуля и известной программы Bard. Полученные результаты проанализированы.
Анализ рынка биометрических продуктов показывает, что аутентификация по голосу признана одним из наиболее эффективных и экономичных методов биометрической аутентификации [1, 2]. Авторами разработан биометрический образ личности, который базируется на характеристиках четвёртой форманты [3]. Целесообразность использования частоты четвёртой форманты гласного звука доказана в работе [4].
Под формантой понимается концентрация энергии в ограниченной частотной области [5, 6], а под частотой четвёртой форманты гласного звука – частота, соответствующая максимальному значению амплитуды выброса энергии в четвёртой частотной области на спектрограмме.
Характеристики четвёртой форманты включают в себя частоту начала четвёртой частотной области на спектрограмме, частоту четвёртой форманты и частоту конца четвёртой частотной области на спектрограмме.
Данная статья посвящена выделению при помощи различных модулей частоты начала четвёртой частотной области на спектрограмме и частоты конца четвёртой частотной области на спектрограмме.
В работе применяются следующие обозначения:
– F4 – частота четвёртой форманты;
– F4s – частота, определяющая начало четвёртой ограниченной частотной области на спектрограмме;
– F4f – частота, определяющая конец четвёртой ограниченной частотной области на спектрограмме.
Каждый из 7 человек, принявших участие в эксперименте, по 10 раз произносили каждый из трёх гласных звуков: «А», «О» и «Э».
Характеристики четвёртых формант данных гласных звуков автоматически выделены при помощи разработанного авторами данной статьи модуля [7].
В программе Bard [8] выделение соответствующих частот начала и конца четвёртой ограниченной частотной области на спектрограмме осуществляется в ручном режиме. В ходе проведения сравнительного анализа сформированы 42 таблицы (по 7 таблиц (так как 7 пользователей) на каждый гласный звук для представления значений частот начала четвёртой частотной области и аналогичным образом сформированные 21 таблица – для значений частот конца четвёртой частотной области). Пример одной из них – табл. 1.
Итоговый сравнительный анализ полученных результатов при сравнении полученных значений частоты начала четвёртой частотной области приведён в табл. 2.
Итоговый сравнительный анализ полученных результатов при сравнении полученных значений частоты конца четвёртой частотной области представлена в табл. 3.
Таблица 1
Сравнение величин частоты начала четвёртой частотной области гласного звука «Э», произнесённого первым пользователем, Гц
Модуль/Номер реализации |
1 |
2 |
... |
8 |
9 |
10 |
Среднее |
Bard |
799,83 |
793,96 |
... |
700,09 |
747 |
743,29 |
774,057 |
Авторский модуль |
758,67 |
750,91 |
... |
738,64 |
716,6 |
725,12 |
741,419 |
Отклонение |
41,16 |
43,05 |
... |
38,55 |
30,4 |
18,17 |
45,136 |
Таблица 2
Сравнительный анализ величин частоты начала четвёртой частотной области гласных звуков, Гц
Гласный звук |
А |
О |
Э |
Среднее |
Величина среднего отклонения |
44,22 |
33,42 |
33,61 |
37,08 |
Таблица 3
Сравнительный анализ величин частоты конца четвёртой частотной области гласных звуков, Гц
Гласный звук |
А |
О |
Э |
Среднее |
Величина среднего отклонения |
45,91 |
42,12 |
26,30 |
38,11 |
Эксперимент показал, что отличия между автоматическим и ручным способами выделения характеристик четвёртой форманты не превышают пределы нормы. Полученные средние величины отклонения, 37,08 Гц и 38,11 Гц, соответствуют погрешностям, обусловленным неточностями ручного измерения, то есть человеческим фактором. Модуль, разработанный авторами данной статьи, показал высокую эффективность при решении поставленной перед ним задачи.