Обзор
Услуги распознавания речи, например, такие как Siri от Apple и OK Google стали удобной альтернативой утомительным и отнимающим много времени и усилий манипуляциями с данными в мобильных телефонах. Технология распознавания речи существует уже многие годы и используется в таких продуктах как Dragon (Nuance), Cortana (Microsoft) и Alexa (Amazon). Поэтому, естественно, что люди думают, что термины “распознавание речи” и “распознавание голоса” являются синонимами.
Распознавание речи осуществляется с использованием программного обеспечения, способного распознавать звуковые волны и преобразовывать их в цифровые данные, например, для выполнения поиска или диктовки текста. Распознавание речи может быть феноменальным инструментом, которое существенно экономит время по сравнению с печатанием слов.
Распознавание голоса представляет собой сравнение экземпляра произнесенной фразы с цифровым шаблоном и используется в качестве средства идентификации и аутентификации в таких системах обеспечения безопасности как контроль доступа и учет рабочего времени. Система создает цифровые шаблоны с очень высокой вероятностью правильной интерпретации. Голос каждого человека включает в себя физиологические и поведенческие характеристики. Физиологические аспекты основаны на размерах и форме полости рта, горла, гортани, полости носа, массы тела каждого человека и других факторов. Поведенческие свойства основаны на языке, уровне образования, месте проживания, и могут привести к появлению определенных интонаций, акцента и диалекта.
Технология распознавания голоса
Распознавание голоса гораздо более точная технология, чем распознавание речи, так как требует значительно более тщательной обработки и анализа. Запуск успешной программы распознавания голоса, в первую очередь, требует сбора набора данных речевых образцов. Чем больше образцов голосовых данных получено, тем выше будет качество модели.
Регистрация
Эффективность распознавания голоса напрямую связана с тщательной процедурой регистрации. Регистрация, как правило, - простой и быстрый процесс, требующий от пользователя произношения ключевой фразы или ряда чисел три или четыре раза. Лучше всего, если человек будет произносить фразу естественно, в условиях без какого-либо шума. Естественно говорить - означает использовать тот же тон и громкость, как в случае, если бы вы разговаривали со знакомым, который находится рядом с вами. Многие люди делают ошибку, стараясь произнести фразу неестественно, как робот - попытайтесь избежать этих ошибок. На качество обработки голоса также влияет используемое устройство.
Обработка голоса
Некоторые решения предлагают технологию локальной аутентификации, однако, в этом случае значительно увеличивается количество ложных срабатываний. Крупные базы данных предоставляют возможности для анализа сотен условий проведения проверки. Компании, планирующие внедрение решений голосовой аутентификации, должны быть нацелены на решения, для которых характерны такие нормы: вероятность ложного допуска - 0,01% и вероятность ложного недопуска - от 1% до 3%. Имейте в виду, что большинство решений не полагаются на голос как на единственный фактор для аутентификации. В решениях для многофакторной аутентификации распознавание голоса является лишь одним из двух или более факторов идентификации пользователя.
Резюме
Распознавание речи и распознавание голоса - две отдельные технологии с использованием речи; первая используется для поиска и диктовки, а вторая - для аутентификации пользователя. Проверка голоса пользователя включает в себя анализ записи голоса, основанный на сотне уникальных характеристик, и сопоставление полученных результатов. В скором времени специалисты отрасли безопасности будут гораздо чаще обращаться к данной технологии для обеспечения контроля доступа.
Источник www.biometricupdate.com. Перевод новости выполнила администратор сайта Елена Пономаренко