Невозможно физически присутствовать в разных местах одновременно. Поэтому люди используют комплекты видеонаблюдения, чтобы видеть и слышать то, что происходит там, где их нет. С несколькими камерами видеонаблюдения достаточно легко, но физически контролировать их одновременно не совсем практично. Однако сколько времени потребуется, чтобы обнаружить нужное событие на одной видеокамере, пока вы проверяете ситуацию в другом месте? Что можно пропустить и каковы будут последствия?

Вот почему видеоаналитика с искусственным интеллектом так важна — технология способна выявлять и классифицировать события, а также оповещать пользователя о подозрительных ситуациях. Когда вы думаете об аналитике в видеокамерах, то вероятно, представляете видео или аналитику на основе изображений, но эта опция также может быть аудиоанализом. Например, выстрелы, агрессивная интонация голоса и разбитие стекла будет трудно обнаружить с помощью видеоаналитики, но их можно быстро выявить с помощью аудиоаналитики — даже если событие за пределами поля зрения камеры видеонаблюдения. Раннее обнаружение такого рода событий означает, что сотрудники службы безопасности или правоохранительные органы могут быть направлены для деэскалации ситуации или даже для спасения жизней.

Но как аудиоаналитика отличает выстрел от звука захлопнувшейся двери? А веселые возгласы от ругани? Хотя раннее обнаружение серьезного события имеет весомое значение, также сводится к минимуму количество ложных срабатываний.

Лучшее обнаружение с машинным обучением

Аудио и видеоаналитика — это два вида распознавания образов, ветви искусственного интеллекта. В последнее десятилетие искусственный интеллект пережил революцию, основанную на машинном обучении. Больше не нужно кропотливо программировать весь интеллект, вместо этого вы предоставляете искусственному интеллекту образцы данных и просите его изучить закономерности этой информации. Эта идея не нова, но она стала возможной только в последнее время при наличии доступных графических процессоров. Первоначально разработанные для игр, эти чипы оказались более универсальными, чем предполагали их разработчики. Ключевые алгоритмы машинного обучения, разработанные на рубеже веков, внезапно стали производительными. К счастью, эти новые методы оказались очень гибкими. Алгоритмы нейронной сети для распознавания неподвижных изображений могут также перейти к видео и аудиоаналитике.

Однако ключом к действенному применению этих новых методов считается набор информации с которой пользователю нужно работать. Для правильного понимания и тестирования моделей машинного обучения требуются наборы данных, большие и разнообразные, чтобы описать разнообразие и типы звуков, которые важно классифицировать. Так, в технологии Sound Intelligence от компании Axis, предусмотрены аудиоданные из многочисленных действительных сред — информация, которая была собрана за последние двадцать лет и аннотирована вручную внутри компании. Тот факт, что производитель способен применять передовое машинное обучение для такого уникального набора аудиоданных, делает Axis лидирующей компанией в индустрии реального распознавания звука.

Общественные инновации

Ускоренное развитие искусственного интеллекта было связано не только с аппаратным и программным обеспечением. Технология также извлекла выгоду из открытого общества и тесного сотрудничества между академическими кругами и промышленностью. Инструменты искусственного интеллекта теперь доступны бесплатно, потому что крупные компании с большими внутренними исследовательскими отделами (такими как Facebook и Google), признают, что сотрудничество ускоряет разработку и приносит пользу обществу в долгосрочной перспективе. Сегодня ряд форумов организуют конкурсы искусственного интеллекта, на которых приглашаются исследователи для тестирования новых идей и алгоритмов на общедоступных наборах данных.

Одним из таких форумов, где Axis принимала участие с технологией Sound Intelligence, является ежегодное мероприятие DCASE — выставка инноваций ИИ, специфичных для аудиоаналитики. Форум проводится с 2016 года и включает двухдневный семинар, на котором победители представляют впечатляющие стратегии. Сотни ученых из популярных университетов, научно-исследовательских институтов и промышленности собираются, чтобы обсудить современные технологии, которые могут быть использованы в будущих решениях.

Растущий интерес со стороны всевозможных компаний показывает, что области классификации и обнаружения звуков в видеонаблюдении уделяется все больше внимания.

Развертывание передовой аналитики с Axis

Для практического развертывания, ПО для видеонаблюдения с аудио и видеоаналитикой должно работать на более практичной платформе. Платформа на основе периферийных устройств, такая как AXIS Camera Application Platform (ACAP) — считается одной из таких платформ, превращающих IP камеры видеонаблюдения в интеллектуальные устройства. За последние годы компания Axis также добилась больших успехов, представив большую вычислительную мощность в IP камерах и аудиоустройствах на основе чипа ARTPEC. Новейшая система на чипе ARTPEC-7 с аппаратной поддержкой нейронных сетей делает акустический анализ на основе машинного обучения еще более производительным.

С увеличением объема доступной вычислительной мощности, аналитика видео и аудио способны функционировать параллельно. Решения также могут быть объединены, чтобы гарантировать еще лучшее качество обнаружения, прокладывая путь для будущей интеграции аудио и видео метаданных и глубокого обучения нейронной сети в объединенном наборе данных.

Искусственный интеллект — сегодня и завтра

Технологии искусственного интеллекта развиваются каждый день. Инструменты и наборы данных с открытым исходным кодом сделают «базовый» искусственный интеллект доступным для всех. Аппаратные инновации, такие как ARTPEC-7, станут стандартным явлением, позволяющим создавать еще более сложные концепции. С распространенной доступностью инструментов и аппаратного обеспечения, ключевыми отличиями в следующем десятилетии будут не те, что включают действенные компоненты ИИ, а те, кто лучше понимает потребности клиентов и предлагает наборы данных наилучшего качества.

Стоит отметить, что нейронные сети технологии Sound Intelligence проходят обучение в реальных условиях, и как следствие, работают на самом деле.