Можно ли по голосу определить внешность человека. Что можно узнать о человеке по тембру его голоса? От чего зависит тембр голоса

Голос каждого человека неповторим по своему звучанию и особенностям. Если говорить о характеристиках певческих голосов, то здесь отличительные черты такие: тембр, диапазон, высота раскрытия и индивидуальность.

Как определить тип голоса? Классификация мужских и женских голосов по вокальным характеристикам, существующая в наши дни, была придумана в итальянской оперной школе. О том, какой тип голоса у исполнителя, нетрудно узнать во время прослушивания. Специалисты обращают внимание на его тембр, тональность, особенности и тесситуру, а затем делают вывод.

Тембр

Тембром голоса называют его индивидуальную окраску и яркость. Голос может звучать насыщенно или мягко, окраска может быть темной или светлой. Преподаватели различают следующие типы тембра голоса: резкий и мягкий, грудной, головной, смешанный.

Вокалист, который обладает мягким и приятным для слуха тембром, будет более востребован, чем тот, кто имеет резкую и отталкивающую манеру пения. По сути, от тембра голоса зависит, сможет ли человек заниматься вокалом.

Тембр каждого из нас уникален, поэтому мы можем легко определить звучащий голос одного из любимых певцов благодаря его индивидуальным особенностям.

О тональности

Стоит учесть, что в каждом произведении голос может звучать по-разному, поэтому лучше петь в своем рабочем диапазоне. Им, в свою очередь, мы называем тот диапазон нот, которым вокалист способен придать красивую окраску и качественное звучание. Здесь речь не идет о полном диапазоне нот, которые человек может взять своим голосом. Так вот, исходя именно из рабочего диапазона, стоит выбирать тональность для определенного произведения.

Что такое диапазон?

Диапазон каждого типа голоса определяют во время распевания, а также в процессе исполнения песни в удобной для человека тональности. В большинстве случаев певческие голоса обладают конкретным диапазоном, благодаря которому легко определить его тип. Особо ценятся исполнители, которые имеют широкий рабочий диапазон и поэтому могут заменить одного из своих коллег с другим голосом.

О тесситуре

Тесситурой называют участок диапазона, в котором певцу комфортно петь. То есть она может быть удобной или неудобной для определенного голоса. Бывает так, что одному исполнителю песня может быть удобной, а другому - нет, хотя оба обладают одинаковым диапазоном. Это означает, что участок диапазона для комфортного пения у них разный. Поэтому чем он шире, тем удобнее петь.

Более того, исполнитель должен научиться правильной технике пения. Неправильная искажает голос. Чтобы он звучал красиво и убедительно, необходимо обратить внимание на следующие технические особенности:

Вы должны дышать диафрагмой, то есть живот должен при вдохе приподниматься, а при выдохе опускаться. Это поспособствует большему контролю над
Сохраняйте правильную осанку во время пения. Шею лучше держать прямой и расслабленной. Если стоять прямо, то дышать будет легче.
Задняя часть горла во время пения должна быть открытой, гласные пропевайте четко.

Поставить свою технику пения может любой человек. Если говорить о технике вокала, то развитие будет зависеть от наличия концентрации памяти и внимания, объема легких и особенностей голосовых связок. По сути, независимо от того, какие у человека физиологические особенности и вокальные данные, развить певческий голос можно.

Для развития голоса

Не ставьте для себя завышенных планок в ожидании прогресса, наберитесь терпения и продолжайте тренировать голос.
Пойте сначала простые песни, а затем беритесь за более сложные.
Голосовым связкам вредит холодное и горячее питье. Лучше пить воду комнатной температуры, и когда поете, время от времени увлажнять горло теплой водой.
Проникнитесь тем, что вы исполняете, постарайтесь почувствовать и передать эмоции этой песни.
Важно определить, какой музыкальный стиль для вас более родной, для этого потренируйтесь в пении разных стилей музыки.
Полезно для слуха играть ноты на пианино и пропевать их.
Не пейте апельсиновый сок и молочные напитки, поскольку они обволакивают горло и затрудняют пение.
Разговаривайте на своей обычной интонации, поскольку и шепот и крик могут навредить голосовым связкам.

Характеристика женских типов голоса

Сначала рассмотрим типы женских голосов. Большинство женщин, занимающихся вокалом, обладают сопрано. Кстати говоря, именно он имеет наибольшее число разновидностей. Он отличается звонким и прозрачным характером, а также выразительностью, звучание открытое и легкое.

Различают драматическое, лирическое и колоратурное сопрано.

Меццо-сопрано известен насыщенным звуком и глубоким тембром. Звучание такого голоса ниже, чем у сопрано. Этот голос тоже может быть драматическим или лирическим.

Основные типы мужских голосов

Если говорить о баритоне, то это более тяжелый, чем тенор, тип голоса. Он обладает ярким и сильным звучанием в верхней части диапазона. Баритоны бывают лирическими и драматическими.

Некоторые заблуждения о классификации голосов по типам

Некоторые исследователи высказывают мнение, якобы не существует никаких типов голоса вообще, и выделяют только женские и мужские. Они считают, что звучание голоса зависит только от конкретных особенностей методик и постановок, другими словами, любая женщина может быть и контральто, и меццо-сопрано, и сопрано.

Однако вокальные данные многих исполнителей подтверждают нелепость этих заявлений. Только в очень редких случаях человек может иметь особые вокальные данные, позволяющие ему петь разными типами голосов. В большинстве случаев исполнитель не может преодолеть различия в тесситуре, например, в терцию. Более того, завышенная или заниженная лишь на один тон тесситура способна навредить голосу.

Упомянем и другие заблуждения, касающиеся типов голоса. Существует мнение о том, что эстрадные исполнители не нуждаются в определении типа голоса, и что классифицируют их только для академического пения. Но такое мнение отличается от действительности, поскольку типы голоса человека природой разделены на три женских и три мужских.

К тому же некоторые путают тембр и тип голоса, хотя это совсем разные термины. Под типом голоса подразумеваются звуковысотные особенности, а разновидности тембра не играют особой роли в таком тонком деле, как определение типа голоса. Индивидуальные показатели тембра важны для выбора своего стиля пения, и чтобы отметить художественные характеристики голоса. Итак, типы голоса являются его звуковысотными показателями, определяемыми с помощью шкалы звукоряда.

Об особенностях голоса

Голос человека невозможно заменить никаким из известных нам музыкальных инструментов, ни голосом каких-либо других созданий, поэтому на живое пение человеческая душа реагирует очень тонко, получая побуждения для сердца и разума.

В прошлом существовало мнение о том, что фониатрия способна, осмотрев оценив размер и форму кадыка, определить тип голоса исполнителя. Считалось, что тенор будет обладателем менее заметного кадыка, а у басов он более выдающийся. Но после многочисленных осмотров и научных исследований стало понятно, что строение кадыка и гортани никак не влияет на тип голоса. Если говорить о связках, то их строение может сыграть роль, но нужно оценить толщину, прочность, размер и эластичность.

Итак, существует конкретный комплекс внешних признаков и личных ощущений, которые помогают определить тип голоса во время пения. Голосовые связки человека очень чувствительные, их довольно легко повредить, что навредит голосу или же он совсем может пропасть.

Поскольку преподаватели тоже иногда ошибаются, во время слушаний лучше не напрягать свой голос слишком сильно, например, исполняя песню в не очень удобной тесситуре. Если вам кажется чей-то голос более ярким и выразительным, чем ваш, не забывайте о том, что каждый из нас имеет неповторимый голос, поэтому пойте только в свойственной себе манере.

Интересно, что когда правоохранительные органы ищут преступников, их выдают особенности голоса. Для поиска правонарушителей спецслужбы пользуются особо разработанными методами идентификации речи. Благодаря индивидуальному звучанию, которое называют обертонами, нам нетрудно узнать по голосу того или иного знакомого человека.

По сути, это является индикатором душевного и эмоционального состояния каждой личности, выражением наших внутренних сил. Именно благодаря голосу можно услышать страх перед публикой, депрессию, восторг, истерику, почувствовать благодарность или ненависть.

Фонограммы, записанные с использованием цифровых диктофонов «Гном Р» и «Гном 2М» удовлетворяют требованиям, предъявляемым к фонограммам, поступающим для проведения фоноскопических экспертиз, и пригодны для идентификации личности по голосу и речи...

Первый заместитель начальника

Диктофон «Гном 2М» неоднократно применялся для записи конференций и семинаров в сложной акустической обстановке, записанные фонограммы отличаются высоким качеством. Встроенная функция шумоочистки позволяет улучшить качество воспроизведения фонограмм...

Ведущий инженер ИПК БНТУ

Институт повышения квалификации и переподготовки кадров БНТУ

За срок эксплуатации «Гном Р» зарекомендовал себя с положительной стороны. Высокое качество записи при минимальных габаритах, большая продолжительность звукозаписи, оперативная передача накопленной информации из встроенной памяти диктофона в ПЭВМ...

Старший офицер 3-го отдела седьмого управления

Генерального штаба Вооруженных Сил РБ

Фонограммы, записанные с использованием системы «Незабудка II», удовлетворяют требованиям, предъявляемым к многоканальным цифровым комплексам регистрации речевых сообщений по телефонным каналам связи, и пригодны для идентификации личности по голосу и речи...

Начальник центра

Государственный экспертно-криминалистический центр

Неограниченное количество оповещаемых абонентов, большое количество одновременно обрабатываемых заданий сделает «Рупор» незаменимым помощником в работе сотрудников кредитного отдела филиала № 524 ОАО «АСБ Беларусбанка...

Заместитель директора – начальник центра розничного бизнеса

Филиал № 524 ОАО «АСБ Беларусбанк»

Система автоматического оповещения «Рупор» работала по аналоговым телефонным линиям и опробовалась с целью оповещения личного состава. Система обслуживала 100 абонентов, работала стабильно и не требовала постоянного технического обслуживания...

Исполняющий обязанности военного комиссара

Военный комиссариат г. Минска

Система записи «Незабудка II» обеспечивает прием голосовых сообщений жильцов, качественную запись их на компьютер, возможность прослушивания записанных сообщений и занесения информации в текстовую базу данных. Система оповещения «Рупор» производит автоматическое оповещение должников...

Начальник отдела АСУ

УП «ЖРЭО Советского района г. Минска»

Система «Рупор» обеспечивает оповещение большого количества абонентов в сжатые сроки в соответствии с установленными параметрами с предоставлением отчёта по проведённому оповещению, работает надёжно, полностью соответствует предъявленным к ней требованиям...

Директор департамента розничного бизнеса

В мобильную систему записи и документирования речи «Протокол» входит цифровой диктофон «Гном 2М» и компьютерный транскрайбер «Цезарь». Диктофон «Гном 2М» позволяет получать качественную запись совещаний и заседаний, а транскрайбер «Цезарь» значительно увеличивает скорость работы по переводу звуковой информации в текстовый документ...

Ведущий специалист

Институт государства и права Академии наук РБ

Установление личности по голосу

В современном мире все больший интерес проявляется к биометрическим технологиям и биометрическим системам идентификации личности, и этот интерес вполне понятен.

Биометрическая идентификация основана на принципе распознавания и сравнения уникальных характеристик человеческого организма. Основными источниками биометрической характеристики человека являются отпечатки пальцев, радужная оболочка и сетчатка глаз, голос, лицо, подпись, походка и др. Эти биометрические идентификаторы принадлежат человеку и являются его неотъемлемой частью. Их нельзя где-то забыть, оставить, потерять.

Для биометрической идентификации можно применять различные характеристики и черты человека. В данной статье дается краткий обзор, как работают биометрические технологии на примере системы распознавания личности по голосу.

Ценность голосовых технологий для биометрики была неоднократно доказана. Однако только высокое качество реализации автоматических систем распознавания диктора способно реально внедрить такие технологии в практику. Подобные системы уже существуют. Они находят применение в системах безопасности, в банковских технологиях, электронной коммерции, правоохранительной практике.

Использование систем распознавания диктора является наиболее естественным и экономичным способом решения проблем неавторизованного доступа к компьютеру или системам передачи информации, а также проблем многоуровневого контроля доступа к сетевым или информационным ресурсам.

Системы распознавания диктора могут решать две задачи: определять личность из заданного, ограниченного списка людей (идентификация личности) или подтверждать личность говорящего (верификация личности). Идентификация и верификация личности по голосу являются направлениями развития технологии обработки речи.

Рис. 1 – Распознавание диктора

Речь – это сигнал, возникающий в результате преобразований, происходящих на нескольких различных уровнях: семантическом, лингвистическом, артикуляционном и акустическом. Как известно, источником речевого сигнала служит речевой тракт, который возбуждает звуковые волны в упругой воздушной среде. Под речевым трактом обычно подразумевается орган речеобразования, расположенный над голосовыми связками. Как видно из рисунка 2 речевой тракт состоит из гортаноглотки, ротоглотки, ротовой полости, носоглотки и носовой полости.

Рис. 2 – Строение речевого тракта человека

Голос человека возникает при прохождении воздуха из легких через трахею в гортань, мимо голосовых связок, и, далее в глотку и рот и носовую полость. Когда звуковая волна проходит через речевой тракт, ее частотный спектр изменяется под действием колебаний речевого тракта. Колебания речевого тракта называются формантами. Системы верификации диктора обычно распознают отличительные признаки речевого сигнала, которые отражают индивидуальную особенность мышечной активности речевого тракта личности.

Рассмотрим более подробно систему верификации диктора. Верификация личности по голосу – это определение, является ли говорящий тем, кем он представляется. Пользователь, ранее зарегистрированный в системе, произносит свой идентификатор, который представляет собой регистрационный номер, парольное слово или фразу. При текстозависимом распознавании парольное слово известно системе, и она «просит» пользователя произнести его. Парольное слово отображается на экране, и человек произносит его в микрофон. При текстонезависимом распознавании произносимое пользователем парольное слово не совпадает с эталонным, т.е. в качестве пароля пользователь может произносить произвольное слово или фразу. Система верификации принимает речевой сигнал, обрабатывает его и решает, принять или отклонить предъявляемый пользователем идентификатор. Система может сообщить пользователю о недостаточной степени совпадения его голоса с имеющимся эталоном и попросить произнести дополнительную информацию, чтобы принять окончательное решение.

Рис. 3 – Взаимодействие человека с системой

Схема взаимодействия человека с системой верификации личности по голосу изображена на рисунке 3. Пользователь произносит в микрофон предлагаемый ему системой номер для того, чтобы система проверила, соответствует ли его голос эталону, хранящемуся в базе данных системы. Как правило, существует компромисс между точностью распознавания голоса и размером речевого образца, т.е. чем длиннее речевой образец, тем выше точность распознавания. Помимо голоса в микрофон могут попадать эхо и посторонние шумы.

Существует ряд факторов, которые могут способствовать возникновению ошибок верификации и идентификации, например:

неправильное произнесение или прочтение парольного слова или фразы;
эмоциональное состояние диктора (стресс, произнесение парольной фразы под принуждением и пр.);
сложная акустическая обстановка (шум, помехи, радиоволны и пр.);
разные каналы связи (использование разных микрофонов во время регистрации диктора и верификации);
простудные заболевания;
естественные изменения голоса.

Некоторые из них могут быть устранены, например, путем использования более качественных микрофонов.

Процесс верификации личности по голосу состоит из 5 этапов: прием речевого сигнала, параметризация, или выделение отличительных признаков голоса, сравнение полученного образца голоса с ранее установленным эталоном, принятие решения «допуск/отказ», обучение, или обновление эталонной модели. Схема верификации представлена на рисунке 4.

Рис. 4 – Схема верификации

Во время регистрации новый пользователь вводит свой идентификатор, а затем произносит несколько раз ключевое слово или фразу, таким образом создаются эталоны. Число повторов ключевой фразы может варьироваться для каждого пользователя, а может быть постоянным для всех.

Для того чтобы компьютер мог обработать речевой сигнал, звуковая волна преобразовывается в аналоговый, а затем в цифровой сигнал.

На этапе выделения признаков голоса речевой сигнал разбивается на отдельные звуковые кадры, которые впоследствии преобразуются в цифровую модель. Эти модели называют «голосовыми отпечатками». Вновь полученный «голосовой отпечаток» сравнивается с ранее установленным эталоном. Для распознавания личности говорящего самыми важными являются наиболее яркие отличительные признаки голоса, которые позволили бы системе с высокой точностью распознавать голос каждого конкретного пользователя.

Наконец, система принимает решение допустить или отказать пользователю в допуске в зависимости от совпадения или несовпадения его голоса с установленным эталоном. Если система неверно сопоставила предъявленный ей голос с эталоном, то возникает ошибка «ложный допуск» (FA). Если же система не опознала биометрический признак, который соответствует имеющемуся в ней эталону, то говорят об ошибке «ложный отказ» (FR). Ошибка ложного допуска создает брешь в системе безопасности, а ошибка ложного отказа приводит к уменьшению удобства пользования системой, которая иногда не распознаёт человека с первого раза. Попытка снизить вероятность возникновения одной ошибки приводит к более частому возникновению другой, поэтому в зависимости от требований к системе выбирается определённый компромисс, т.е. устанавливается порог принятия решения.

Заключение

Методы голосовой идентификации применяют и на практике. Технология идентификации по голосу компании позволяет организовать регламентированный доступ пользователей по заданной парольной фразе к ресурсам предприятия, телефонным и WEB-сервисам. Использование технологии позволяет существенно повысить защищенность систем и, в то же время, упростить процесс идентификации пользователя. Технология Voice Key обеспечит высокую надежность и стабильность работы системы, а также поможет повысить качество обслуживания клиентов.

Все материалы, размещенные на даннном сайте, разрешены к публикации и печати на других ресурсах и печатных издания только при наличии письменного разрешения компании ООО "Речевые Технологии"

Здравствуй, дорогой читатель!

Предлагаю твоему вниманию интересную и познавательную статью об отдельно взятом методе распознавания говорящего. Всего каких-то пару месяцев назад я наткнулся на о применении мел-кепстральных коэффициентов для распознавании речи. Она не нашла отклика, вероятно, из-за недостаточной структурированости, хотя материал в ней освещен очень интересный. Я возьму на себя ответственность донести этот материал в доступной форме и продолжить тему распознавания речи на Хабре.

Под катом я опишу весь процесс идентификации человека по голосу от записи и обработки звука до непосредственно определения личности говорящего.

Запись звука

Наша история начинается с записи аналогового сигнала с внешнего источника с помощью микрофона. В результате такой операции мы получим набор значений, которые соответствуют изменению амплитуды звука со временем. Такой принцип кодирования называется импульсно-кодовой модуляцией aka PCM (Pulse-code modulation). Как можно догадаться, «сырые» данные, полученные из аудио-потока, пока еще не годятся для наших целей. Первым делом нужно преобразовать непослушные биты в набор осмысленных значений — амплитуд сигнала. В качестве входных данных я буду использовать несжатый 16-битный знаковый (PCM-signed) wav-файл с частотой дискретизации 16 кГц.

Double readAmplitudeValues(bool isBigEndian) { int MSB, LSB; // старший и младший байты byte buffer = ReadDataFromExternalSource(); // читаем данные откуда-нибудь double data = new double; for (int i = 0; i < buffer.length; i += 2) { if(isBigEndian) // задает порядок байтов во входном сигнале { // первым байтом будет MSB MSB = buffer; // вторым байтом будет LSB LSB = buffer; } else { // наоборот LSB = buffer; MSB = buffer; } // склеиваем два байта, чтобы получить 16-битное вещественное число // все значения делятся на максимально возможное - 2^15 data[i] = ((MSB << 8) || LSB) / 32768; } return data; }
Освежить знания про порядок байтов можно на википедии .

Обработка звука

Полученные значения амплитуд могут не совпадать даже для двух одинаковых записей из-за внешнего шума, разных громкостей входного сигнала и других факторов. Для приведения звуков к «общему знаменателю» используется нормализация . Идея пиковой нормализации проста: разделить все значения амплитуд на максимальную (в рамках данного звукового файла). Таким образом мы уравняли образцы речи, записанные с разной громкостью, уложив все в шкалу от -1 до 1. Важно, что после такой трансформации любой звук полностью заполняет заданный промежуток.

Нормализация, на мой взгляд, — самый простой и эффективный алгоритм предварительной обработки звука. Существуют также масса других: «отрезающие» частоты выше или ниже заданной, сглаживающие и др.

Разделяй и властвуй

Даже при работе со звуком с минимально достаточной частотой дискретизации (16 кГц) размер уникальных характеристик для секундного образца звука просто огромен — 16000 значений амплитуд. Производить сколь-нибудь сложные операции над такими объемами данных не представляется возможным. Кроме того, не совсем понятно, как сравнивать объекты с разным количеством уникальных черт.

Для начала снизим вычислительную сложность задачи, разбив ее на меньшие по сложности подзадачи. Этим ходом убиваем сразу двух зайцев, ведь установив фиксированный размер подзадачи и усреднив результаты вычислений по всем задачам, получим наперед заданное количество признаков для классификации.

На рисунке изображена «порезка» звукового сигнала на кадры длины N с половинным перекрытием. Необходимость в перекрытии вызвана искажением звука в случае, если бы кадры были расположены рядом. Хотя на практике этим приемом часто принебрегают для экономии вычислительных ресурсов. Следуя рекоммендациям , выберем длину кадра равной 128 мс, как компромисс между точностью (длинные кадры) и скоростью (короткие кадры). Остаток речи, который не занимает полный кадр, можно заполнить нулями до желаемого размера или просто отбросить.

Для устранения нежелаетльных эффектов при дальнейшей обработке кадров, умножим каждый элемент кадра на особую весовую функцию («окно»). Результатом станет выделение центральной части кадра и плавное затухание амплитуд на его краях. Это необходимо для достижения лучших результатов при прогонке преобразования Фурье , поскольку оно ориентировано на бесконечно повторяющийся сигнал. Соответственно, наш кадр должен стыковаться сам с собой и как можно более плавно. Окон существует великое множество . Мы же будем использовать окно Хэмминга.

n - порядковый номер элемента в кадре, для которого вычисляется новое значение амплитуды
N - как и ранее, длина кадра (количество значений сигнала, измеренных за период)

Дискретное преобразование Фурье

Следующим шагом будет получение кратковременной спектрограммы каждого кадра в отдельности. Для этих целей используем дискретное преобразование Фурье .

N - как и ранее, длина кадра (количество значений сигнала, измеренных за период)
x n - амплитуда n-го сигнала
X k - N комплексных амплитуд синусоидальных сигналов, слагающих исходный сигнал

Кроме этого, возведем каждое значение X k в квадрат для дальнейшего логарифмирования.

Переход к мел-шкале

На сегодняшний день наиболее успешными являются системи распознавания голоса, использующие знания об устройстве слухового аппарата. Несколько слов об этом есть и на Хабре . Если говорить вкратце, то ухо интерпретирует звуки не линейно, а в логарифмическом масштабе. До сих пор все операции мы проделывали над «герцами», теперь перейдем к «мелам». Наглядно представить зависимость поможет рисунок.

Как видно, мел-шкала ведет себя линейно до 1000 Гц, а после проявляет логарифмическую природу. Переход к новой шкале описывается несложной зависимостью.

m - частота в мелах
f - частота в герцах

Получение вектора признаков

Сейчас мы как никогда близко к нашей цели. Вектор признаков будет состоять из тех самых мел-кепстральных коэффициентов. Вычисляем их по формуле

c n - мел-кепстральный коэффициент под номером n
S k - амплитуда k-го значения в кадре в мелах
K - наперед заданное количество мел-кепстральных коэффициэнтов
n ∈

Как правило, число K выбирают равным 20 и начинают отсчет с 1 из-за того, что коэффициент c 0 несет мало информации о говорящем, так как является, по сути, усреднением амплитуд входного сигнала.

Так кто же все-таки говорил?

Последней стадией является классификация говорящего. Классификация производится вычислением меры схожести пробных данных и уже известных. Мера схожести выражается расстоянием от вектора признаков пробного сигнала до вектора признаков уже классифицированного. Нас будет интересовать наиболее простое решение — расстояние городских кварталов .

Такое решение больше подходит для векторов дискретной природы, в отличие от расстояния Евклида.

Внимательный читатель наверняка помнит, что автор в начале статьи упоминал про усреднение признаков речевых кадров. Итак, восполняя этот пробел, завершаю статью описанием алгоритма нахождения усредненного вектора признаков для нескольких кадров и нескольких образцов речи.

Кластеризация

Нахождение вектора признаков для одного образца не составит труда: такой вектор представляется как среднее арифметическое векторов, характеризующих отдельные кадры речи. Для повышения точности распознавания просто необходимо усреднять результаты не только между кадрами, но и учитывать показатели нескольких речевых образцов. Имея несколько записей голоса, разумно не усреднять показатели к одному вектору, а провести кластеризацию, например с помощью метода k-средних .

Итоги

Таким образом, я рассказал о простой но эффективной системе идентификации человека по голосу. Резюмируя, процесс распознавания построен следующим образом:

Собираем несколько тренировочных образцов речи, чем больше — тем лучше.
Находим для каждого из них характеристический вектор признаков.
Для образцов с известным автором проводим кластеризацию с одним центром (усреднение) или несколькими. Приемлемые результаты начинаются уже с использованием 4-х центров для каждого диктора.
В режиме опознавания находим расстояние от пробного вектора до изученных во время тренировки центров кластеров. К какому кластеру пробная речь окажется ближе — к такому диктору и относим образец.
Можно экспериментально установить даже некоторый доверительный интервал — максимальное расстояние, на котором может находиться пробный образец от центра кластера. В случае превышения этого значения — классифицировать образец как неизвестный.

Я всегда рад полезным комментариям по поводу улучшения материала. Спасибо за внимание.

Tutorial

Всем привет.
Недавно я написал вот такую про распознавание слитной речи, а сейчас хотел бы написать про голосовую биометрию, т.е. подтверждение личности человека по голосу и узнавание человека по голосу.

Опять же, т.к. моя работа связана с контактными центрами (КЦ), то говорить я буду о них. Это еще связано с тем, что сейчас именно они активно интересуются голосовой биометрией, что не удивительно, т.к. телефонный канал – это идеальное ее применение.
- вы не видите абонента на другом конце провода;
- вы не можете использовать другие модальности для подтверждения личности: по лицу, по сетчатке глаза, по отпечатку пальца.
- не нужны дополнительные сканирующие устройства, типа тех, куда надо приложить свой палец или кому показать свой глаз.
- это самый дешевый способ биометрии, хоть и слегка уступает по надежности другим способам. Но так как другие модальности технически не применимы по телефону в массовом использовании, то выбора по факту нет.
Вы, конечно, можете возразить про вариант подтверждения личности абонента «основанном на знаниях» - это пароли, секретные слова, TPIN коды (банки), паспортные данные и т.д. – но все это не надежно с точки зрения безопасности и требует запоминания информации у абонента или всегда держать информацию под рукой, что не очень удобно для абонента и не эффективно (затратно) для КЦ.

Для начала определимся с понятиями, что входит в понятие голосовой биометрии:
- Это идентификация , т.е. установление личности человека по голосу. Это когда вам звонит старый приятель по телефону с неизвестного номера и говорит: «Угадай кто это?» и вы пытаетесь в голове среди всех известных (знакомых) голосов найти наилучшее совпадение. Когда сканирование памяти закончилось и вы нашли более менее подходящее совпадение, то вы можете уже сказать: «Ага, это мой одноклассник Серега с которым я не говорил 10 лет». Но гарантии в том, что это именно он, у вас нет, и тут приходит время верификации.
- Верификация – это подтверждение личности по голосу, т.е. однозначное удостоверение личности. Для этого мы можем попросить доказать, что Серега именно тот, за кого себя выдает. Мы можем спросить у него: «Скажи, где мы были в 6 утра на выпускном» - эта информация позволит нам подтвердить личность Сереги, т.к. только он может являться носителем этой информации (аналогично паролю о котором я писал выше).

Если хотите более умное определение, то:
Идентификация - Проверяет совпадение одного образца голоса со многими из базы голосов. В качестве результата идентификации система показывает список личностей с похожими голосами в процентном отношении. 100% совпадение означает, что образец голоса полностью совпадает с голосом из базы данных и личность установлена достоверно.
Верификация - Производит сличение двух образцов голоса: голос человека, чью личность необходимо подтвердить, с голосом, который храниться в базе данных системы и чья личность уже достоверно установлена. В качестве результата верификации система показывает степень совпадения одного голоса с другим в процентном отношении.
Есть еще такое понятие как аутентификация . Однозначно сказать, чем она отличается от верификации сказать трудно. У некоторых наших сотрудников есть мнение, что это некий процесс подтверждения биологической (!) личности, когда трудно отделить процесс идентификации от верификации, т.е. это обобщенный процесс.

Какая бывает верификация?

- Текстонезависимая
Когда подтверждение личности происходит по спонтанной речи абонента, т.е. нам не важно, что говорит человек. Это самый долгий метод подтверждения – чистой речи абонента должно накопиться минимум 6-8 сек. Обычно этот способ применяется непосредственно во время общения абонента с оператором КЦ, когда последнему нужно однозначно удостовериться, что абонент именно тот, за кого себя выдает. Самое интересное, что данный способ верификации можно применять скрытно от самого абонента. На рабочем месте оператора КЦ виден вот такой рабочий инструмент.

Рис 1. Часть интерфейса рабочего места оператора КЦ для проведения верификации клиента.

- Текстозависимая по статической парольной фразе
Когда подтверждение личности происходит по парольной фразе, которую на момент регистрации придумал абонент. Длительность парольной фразы должна быть не менее 3 сек. Обычно мы предлагаем говорить свое ФИО и название компании. Парольная фраза всегда одинаковая.
- Текстозависимая по динамической парольной фразе
Когда подтверждение личности происходит по парольной фразе, которую предлагает сама система в момент звонка для верификации, т.е. каждый раз парольная фраза разная! Обычно мы предлагаем динамическую парольную фразу из последовательности цифр. Абонент повторяет за системой числа до тех пор, пока она не примет однозначного решения «свой/чужой». Это может быть и одно число типа «32» или целый набор «32 58 64 25». Интересно то, то произнесение разных цифр дает разный объем информации для сличения: самая «полезная» цифра «восемь» – она больше всего содержит полезной речевой информации, самая бесполезная «два».

Шаг 1.
Что бы мы могли провести верификацию по голосу, нам нужно в своей базе уже иметь образец голоса (слепок голоса), хозяин которого достоверно известен. Поэтому первый шаг – это накопление базы слепками голосов, для этого мы просим абонентов (клиентов) пройти процесс регистрации в системе.
Регистрация в системе абонента означает, что он добровольно оставляет свой слепок голоса, который потом мы будем использовать для верификации. Обычно мы просим оставить подряд 3 слепка голоса, что бы была вариативность – три раза произнести свой пароль. Затем, когда верификация будет успешно пройдена, мы заменим наиболее старый слепок голоса новым, таким образом, происходит постоянное обновление слепков, если абонент часто пользуется системой. Так мы решаем проблему старения голоса.
Если мы применяем верификацию по динамической парольной фразе, то мы просим произнести абонента цифры от 0 до 9 три раза. В результате у нас будет 30 образцов голоса.

Желательно, что бы клиент оставлял свой слепок голоса (регистрировался) по тому каналу связи, по которому потом будет верифицироваться, иначе вероятность ошибок возрастает. Бывают случаи, когда проходят регистрацию с гарнитуры в скайпе, а потом верифицируются по домашнему телефону – здесь фактор канала связи будет играть большую роль в надежности сервиса. При построении сервиса можно учитывать, что каналы связи могут быть разные - это отрабатывается и тестируется отдельно под конкретный случай и нивелировать влияния канала связи можно практически полностью. Но не подумав об этом сразу и с наскока внедрить - будут сложности.

Важно, что бы клиент самостоятельно и осознано прошел регистрацию (знал зачем это нужно и как это ему потом поможет), т.к. пройти потом верификацию может только лояльный абонент, которому нужен результат и который принимает «правила игры».
Если клиента вынуждать проходить верификацию к месту и не к месту, то он может подсознательно изменять голос, дурачиться (быть не дружелюбным к сервису) - это будет приводить к ошибкам и лояльность клиента будет падать, хотя он сам в этом косвенно будет виноват.

Как проходит регистрация абонента в системе? (статическая парольная фраза)

Рис 2. Схема регистрации человека в биометрической системе.

1.Абонент звонит в биометрическую систему, которая предлагает ему придумать и произнести парольную фразу. Произнести 3 раза.
2.Голос обрабатывается сервером биометрии и на выход мы получаем 3 модели голоса. По одной на каждый произнесенный пароль.
3.На сервере мы заводим карточку клиента (Юрий Гагарин) к которой прицепляем полученные 3 модели голоса.

Что такое модель голоса?
- это уникальные характеристики голоса человека отраженные в матрице цифр, т.е. это файл размером 18Кбайт (для статической п.ф.). Это как отпечаток пальца. Именно эти модели голоса мы потом и сравниваем. В общей сложности модель голоса фиксирует 74 (!) разных параметра голоса.

Как получают модели голоса?
Мы используем 4 независимых метода:
- анализ статистики основного тона;
- метод смеси гауссовых распределений и SVM;
- спектрально-формантный;
- метод полной изменчивости.
Описывать их подробно я здесь не возьмусь – это сложно даже для меня и в курс «для чайников» точно не входит. Этому всему мы учим на нашей кафедре РИС в ИТМО (Санкт-Петербург).

Шаг 2.
Это непосредственно сама верификация. То есть у нас есть абонент на том конце провода, который утверждает, что он Юрий Гагарин. А у нас в базе, соответственно, есть карточка клиента Юрия Гагарина, где хранятся слепки его голоса, поэтому, все, что нам нужно сделать – это сравнить голос человека, который утверждает, что он Юрий Гагарин с голосом настоящего Юрия Гагарина.

Как проходит верификация абонента в системе? (статическая парольная фраза)

Рис 3. Схема верификации человека в биометрической системе.

1.Сначала мы поступаем как при регистрации, т.е. у нас есть произнесенный клиентом пароль, который мы отправляем в сервер биометрии и строим модель голоса «якобы» Юрия Гагарина.
2.Затем мы берем 3 модели голоса настоящего Юрия Гагарина, делаем хитрым способом усредненную модель и тоже отправляем ее в сервер биометрии.
3.Просто сравниваем 2 разные модели. На выходе мы получаем процент соответствия одной модели к другой.
4.Дальше нам нужно что-то делать с этим числом (на рисунке 92%). Много это или мало, можем мы однозначно сказать, что это Юрий Гагарин или это обманщик?

Рис 4. Порог доверия «свой/чужой».

В системе у нас есть такой параметр как «порог доверия» - это некий процент соответствия. Допустим, мы его сами задали в 60%. Таким образом, если процент соответствия модели голоса «якобы» Юрия Гагарина не доходит до «порога доверия», то нам позвонил обманщик. Если больше «порога доверия», то нам позвонил настоящий Юрий Гагарин. «Порог доверия» мы можем задавать сами, обычно это от 50 до 70% в зависимости от задачи верификации.

Здесь мне нужно было бы вам рассказать про ошибки первого (FR) и второго рода (FA), а также обобщенной ошибки (EER), но я это делать не буду – это сильно усложнит и увеличит текст. Если интересно, то я попробую уговорить, кого ни будь из научного отдела это популярно описать и размещу здесь отдельно.

Скажу просто, что в зависимости от задачи верификации, нам бывает полезней с большей долей вероятности пропустить «своего», чем не пропустить «чужого». И наоборот, иногда бывает важнее не пропустить «чужого», чем пропустить «своего».
Уверен, что с первого раза эти 2 предложения из вас никто не понял, и вам пришлось еще раз вдумчиво их прочитать, что бы осознать смысл.

Интеграция сервера биометрии в контактный центр.

Рис 5. Блок-схема продукта VoiceKey.

Честно говоря, здесь все очень просто: на вход мы подаем голос в формате wave или PCM по http, на выходе получаем результат сравнения. Больше подробнее на этом останавливаться не хочу.

Процесс верификации занимает в среднем 0.8 сек. Есть возможность работать одновременно со многими потоками.

По голосу человека можно определить его характер, настроение и даже душевные свойства. Тембр голоса, как и неповторимый узор отпечатков пальцев, строго индивидуален, а в США, Англии и Италии запись голоса считается неоспоримым юридическим документом, подделать который невозможно.

Кому-то генетически дается приятный голос, а кому-то приходится жить с «противным». Но всегда есть выход – над голосом можно работать. При умелом использовании, речь и голос становятся мощным психологическим оружием, действующим на подсознание собеседника.

Психологи выявили основные эмоциональные реакции человека на различные вариации высоты и тембра голоса собеседника.

Высокий и звонкий голос ассоциируется с юностью, энергичностью и, увы, с незрелостью и неопытностью. По статистике женщин и (особенно) мужчин с таким голосом значительно реже назначают на солидные посты. Сделано интересное наблюдение, чем выше голос, тем ниже должность.

Более того, пронзительный, высокий звук прочитывается подсознанием как сигнал тревоги. Таким образом, длительно звучащий высокий голос вызывает у собеседника невольное чувство дискомфорта и уменьшает степень доверия к словам. Обладатель очень высокого голоса должен более чем кто-либо другой обратить внимание на содержание и интонационную часть своей речи.

Обладателям низкого голоса повезло значительно больше: он ассоциируется с самодостаточностью, уверенностью, интеллектом. Человека с таким голосом окружающие воспринимают как знающего, а, следовательно, более авторитетного. Чем ниже голос мужчины, тем сильней и надежней он выглядит в глазах женщины. Кстати, статистика не отрицает также влияния голоса на успех у противоположного пола. Вы наверняка отмечали возникновение романтических мыслей, общаясь по телефону с незнакомым мужчиной, обладающим приятным тембром голоса.

Один только низкий бархатный голос человека, которого мы никогда не видели, может вызвать сильнейшее чувство любви. Это обусловлено подсознательным считыванием генокода собеседника. Дело в том, что низкий голос обусловлен повышенным содержанием мужских половых гормонов в крови, следовательно, обладатель такого голоса более темпераментен. Именно поэтому женщина с низким, грудным голосом, богатым интонациями кажется мужчинам, более сексуальной, чем обладательница монотонно звучащего тонкого голоска.

Но для убеждения или соблазнения собеседника женщине не обязательно иметь от природы красивый низкий голос, достаточно вооружиться собственным голосом (любым, который есть), умом (достаточно житейского) и терпением. Для начала поработайте над голосом: на звучание голоса влияет не только гормональная составляющая крови, но и строение голосовых связок, психологический настрой и особенности дыхания.

Следите за осанкой – при хорошей осанке органы дыхания расположены правильно, что позволяет ему быть лёгким и свободным. Звук должен выходить из груди. Чтобы проверить правильность выполнения упражнения положите руку на грудь, если она вибрирует – Вы на верном пути.

Укрепляет дыхание и улучшает звучание голоса занятие пением. Оставшись в квартире наедине с собой и домашними заботами, попробуйте что-нибудь достаточно громко спеть. Надувайте воздушные шарики – это очень укрепляет дыхательную систему, советует "Гороскоп.ру" .

Разнообразьте речь интонациями, особенно если Вы склонны подавать информацию «на одной ноте». Несколько раз прочитайте вслух небольшой отрезок текста (лучше всего стихотворение), с каждым новым прочтением наполняя его новыми интонациями.Научитесь четко формулировать мысль, которую Вы хотите донести до слушателя. Это избавит вас от предательского «мычания» в паузах между смысловыми отрезками речи. Запаситесь аргументами в пользу своего мнения, правильно расставляйте акценты.Невозможно убедить кого-то в чем-то, тихо прожевывая фразы. Помните, что информация, поданная всего на полдецибела громче, гораздо успешнее убеждает слушателя и лучше усваивается им. Установите оптимальный «уровень громкости» для своего голоса. Посчитайте вслух, от одного до десяти, постепенно повышая голос, когда услышите то звучание, которое вас устроит, запомните его, а затем постарайтесь ему следовать.