Две отдельные исследовательские группы, независимо друг от друга, разработали программное обеспечение, которое способно не только точно распознавать содержание фотографий и видео, но и может описывать целые сцены - об этом говорится в докладе, опубликованном в National Post.

Исследователи в компании Google и в Стэнфордском университете разработали программное обеспечение, которое может распознать целую сцену, после чего написать заголовок, точно описывающий всю картину.

Благодаря этим возможностям, программа позволит эффективно структурировать и разобрать миллиарды изображений и часов видео, которые, как правило, имеют довольно неточные описания.

Поисковые системы, такие как Google, в основном, ориентируются на прикрепленные к изображению или видео заголовки, которые позволяют понять, о чем в них идет речь.

Директор Стэнфордской лаборатории изучения искусственного интеллекта Фэй-Фэй Ли опубликовала свои выводы в виде технического отчета Стэнфордского университета.

Между тем, исследовательская группа Google опубликовала свою собственную научно-исследовательскую работу на сайте arXiv.org.

Новое исследование может привести к новым возможностям для видеонаблюдения и позволит правоохранительным органам точно распознавать людей и даже предсказывать определенные типы поведения.

В настоящее время, программное обеспечение для распознавания изображений от Google способно определить кошек среди 10 миллионов изображений, случайно взятых из YouTube, а программа распознавания, используемая в автомобилях, может определить пешеходов и велосипедистов (с помощью видеокамер, расположенных на лобовом стекле) и автоматически остановить машину, чтобы предотвратить столкновение.

Тем не менее, обе эти программы нацелены только на сами объекты и не имеют понимания того, что на самом деле происходит на изображении. Обе исследовательские группы Google и Stanford надеются решить эту проблему путем разработки компьютерных программ, которые могут обучаться идентифицировать общие черты и находить закономерности в полученных данных.

В обоих случаях, группы смогли обучить программу подписями сопровождать небольшие наборы цифровых изображений. После того как программное обеспечение эффективно расшифровало наборы изображений и подписей, исследователи добавили новые кадры, что должно удвоить точность предыдущих расчетов.

Обе исследовательские группы Google и Stanford считают, что они смогут значительно повысить точность, обновляя свое программное обеспечение и обучая его использовать большие наборы озаглавленных изображений.

Источник www.biometricupdate.com. Перевод новости выполнила администратор сайта Елена Пономаренко.