Неможливо фізично бути присутнім в різних місцях одночасно. Тому люди використовують комплекти відеоспостереження, щоб бачити та чути те, що відбувається там, де їх немає. З кількома камерами відеоспостереження досить легко, але фізично контролювати їх одночасно не зовсім практично. Однак скільки часу буде потрібно, щоб виявити потрібну подію на одній відеокамері, поки ви перевіряєте ситуацію в іншому місці? Що можна пропустити та які будуть наслідки?

Ось чому відеоаналітика зі штучним інтелектом так важлива — технологія здатна виявляти та класифікувати події, а також сповіщати користувача про підозрілі ситуації. Коли ви думаєте про аналітику в відеокамерах, то ймовірно, уявляєте відео або аналітику на основі зображень, але ця опція також може бути аудіоаналізом. Наприклад, постріли, агресивну інтонацію голосу та розбиття скла буде важко виявити за допомогою відеоаналітики, але їх можна швидко виявити за допомогою аудіоаналітики — навіть якщо подія за межами поля зору камери відеоспостереження. Раннє виявлення такого роду подій означає, що співробітники служби безпеки або правоохоронні органи можуть бути спрямовані для деескалації ситуації або навіть для порятунку життя.

Але як аудіоаналітика відрізняє постріл від звуку двері, що зачинилася? А веселі вигуки від лайки? Хоча раннє виявлення серйозної події має вагоме значення, також зводиться до мінімуму кількість помилкових спрацьовувань.

Найкраще виявлення з машинним навчанням

Аудіо та відеоаналітика — це два види розпізнавання образів, гілки штучного інтелекту. В останнє десятиліття штучний інтелект пережив революцію, засновану на машинному навчанні. Більше не потрібно ретельно програмувати весь інтелект, замість цього ви надаєте штучному інтелекту зразки даних та просите його вивчити закономірності цієї інформації. Ця ідея не нова, але вона стала можливою тільки останнім часом при наявності доступних графічних процесорів. Спочатку розроблені для ігор, ці чіпи виявилися більш універсальними, ніж припускали їх розробники. Ключові алгоритми машинного навчання, розроблені на рубежі століть, раптово стали продуктивними. На щастя, ці нові методи виявилися дуже гнучкими. Алгоритми нейронної мережі для розпізнавання нерухомих зображень можуть також перейти до відео та аудіоаналітики.

Однак ключем до дієвого застосування цих нових методів вважається набір інформації з якою користувачеві потрібно працювати. Для правильного розуміння та тестування моделей машинного навчання потрібні набори даних, великі й різноманітні, щоб описати різноманітність та типи звуків, які важливо класифікувати. Так, в технології Sound Intelligence від компанії Axis, передбачені звукові дані з численних дійсних середовищ — інформація, яка була зібрана за останні двадцять років та анотована вручну всередині компанії. Той факт, що виробник здатний застосовувати передове машинне навчання для такого унікального набору аудіо, робить Axis провідною компанією в індустрії реального розпізнавання звуку.

Громадські інновації

Прискорений розвиток штучного інтелекту був пов'язаний не тільки з апаратним та програмним забезпеченням. Технологія також отримала вигоду від відкритого суспільства та тісної співпраці між академічними колами та промисловістю. Інструменти штучного інтелекту тепер доступні безкоштовно, тому що великі компанії з великими внутрішніми дослідними відділами (такими як Facebook та Google), визнають, що співпраця прискорює розробку та приносить користь суспільству в довгостроковій перспективі. Сьогодні ряд форумів організовують конкурси штучного інтелекту, на яких запрошуються дослідники для тестування нових ідей та алгоритмів на загальнодоступних наборах даних.

Одним з таких форумів, де Axis брала участь з технологією Sound Intelligence, є щорічний захід DCASE — виставка інновацій ШІ, специфічних для аудіоаналітики. Форум проводиться з 2016 року та охоплює дводенний семінар, на якому переможці представляють вражаючі стратегії. Сотні вчених з популярних університетів, науково-дослідних інститутів та промисловості збираються, щоб обговорити сучасні технології, які можуть бути використані в майбутніх рішеннях.

Наростальний інтерес з боку всіляких компаній показує, що областям класифікації та виявленню звуків у відеоспостереженні приділяється все більше уваги.

Розгортання передової аналітики з Axis

Для практичного розгортання, ПЗ для відеоспостереження з аудіо та відеоаналітикою має працювати на більш практичній платформі. Платформа на основі периферійних пристроїв, така як AXIS Camera Application Platform (ACAP) — вважається однією з таких платформ, що перетворюють IP камери відеоспостереження на інтелектуальні пристрої. За останні роки компанія Axis також домоглася великих успіхів, представивши велику обчислювальну потужність в IP камерах та аудіопристроях на основі чіпа ARTPEC. Новітня система на чіпі ARTPEC-7 з апаратною підтримкою нейронних мереж робить акустичний аналіз на основі машинного навчання ще більш продуктивним.

Зі збільшенням обсягу доступної обчислювальної потужності, аналітика відео та аудіо здатні функціонувати паралельно. Рішення також можуть бути об'єднані, щоб гарантувати ще кращу якість виявлення, прокладаючи шлях для майбутньої інтеграції аудіо та відео метаданих й глибокого навчання нейронної мережі в об'єднаному наборі даних.

Штучний інтелект — сьогодні та завтра

Технології штучного інтелекту розвиваються кожен день. Інструменти та набори даних з відкритим вихідним кодом зроблять «базовий» штучний інтелект доступним для всіх. Апаратні інновації, такі як ARTPEC-7, стануть стандартним явищем, що дозволяє створювати ще більш складні концепції. З поширеною доступністю інструментів та апаратного забезпечення, ключовими відмінностями в наступному десятилітті будуть не ті, що включають дієві компоненти ШІ, а ті, хто краще розуміє потреби клієнтів та пропонує набори даних найкращої якості.

Варто відзначити, що нейронні мережі технології Sound Intelligence проходять навчання в реальних умовах, та як наслідок, працюють насправді.