Огляд
Послуги розпізнавання мови, наприклад такі як Siri від Apple і OK Google, стали зручною альтернативою стомлюючим і віднімаючим багато часу і зусиль маніпуляціям з даними в мобільних телефонах. Технологія розпізнавання мови існує вже багато років і використовується в таких продуктах як Dragon (Nuance), Cortana (Microsoft) і Alexa (Amazon). Тому природно, коли люди думають що терміни "розпізнавання мови" і "розпізнавання голосу" є синонімами.

Розпізнавання мови здійснюється з використанням програмного забезпечення, здатного розпізнавати звукові хвилі і перетворювати їх в цифрові дані, наприклад, для виконання пошуку або диктування тексту. Розпізнавання мови може бути феноменальним інструментом, яке істотно заощаджує час в порівнянні з друкуванням слів.

Розпізнавання голосу являє собою порівняння примірника вимовленої фрази з цифровим шаблоном і використовується як засіб ідентифікації і аутентифікації в таких системах забезпечення безпеки як контроль доступу та облік робочого часу. Система створює цифрові шаблони з дуже високою ймовірністю правильної інтерпретації. Голос кожної людини включає в себе фізіологічні та поведінкові характеристики. Фізіологічні аспекти засновані на розмірі та формі порожнини рота, горла, гортані, порожнини носа, маси тіла кожної людини та інших чинників. Поведінкові властивості засновані на мові, рівні освіти, місці проживання, і можуть привести до появи певних інтонацій, акценту і діалекту.

Технологія розпізнавання голосу
Розпізнавання голосу набагато більш точна технологія ніж розпізнавання мови, так як вимагає значно більш ретельної обробки і аналізу. Запуск успішної програми розпізнавання голосу, в першу чергу вимагає збору набору даних мовних зразків. Чим більше зразків голосових даних отримано, тим вищою буде якість моделі.

Реєстрація
Ефективність розпізнавання голосу безпосередньо пов'язана з ретельною процедурою реєстрації. Реєстрація як правило - простий і швидкий процес, що вимагає від користувача вимови ключової фрази або ряду чисел три або чотири рази. Найкраще, якщо людина буде вимовляти фразу природно, в умовах без будь-якого шуму. Природно говорити - означає використовувати той же тон і гучність, як у випадку якби ви розмовляли зі знайомим який знаходиться поруч з вами. Багато людей роблять помилку, намагаючись вимовити фразу неприродно, як робот - спробуйте уникнути цих помилок. На якість обробки голосу також впливає використовуваний пристрій.

Обробка голосу
Деякі рішення пропонують технологію локальної аутентифікації, але в цьому випадку значно збільшується кількість помилкових спрацьовувань. Великі бази даних надають можливості для аналізу сотень умов проведення перевірки. Компанії які планують впровадження рішень голосової аутентифікації, повинні бути націлені на рішення, для яких характерні такі норми: ймовірність помилкового допуску - 0,01% і ймовірність помилкового недопуску - від 1% до 3%. Майте на увазі, що більшість рішень не покладаються на голос як на єдиний фактор для аутентифікації. У рішеннях для багатофакторної аутентифікації, розпізнавання голосу є лише одним з двох або більше факторів ідентифікації користувача.

Резюме
Розпізнавання мови і розпізнавання голосу - дві окремі технології з використанням мови; перша використовується для пошуку і диктування, а друга - для аутентифікації користувача. Перевірка голосу користувача включає в себе аналіз запису голосу, заснований на сотні унікальних характеристик, і зіставлення отриманих результатів. Незабаром фахівці галузі безпеки будуть набагато частіше звертатися до даної технології для забезпечення контролю доступу.

Джерело www.biometricupdate.com. Переклад новини виконала адміністратор сайту Олена Пономаренко