Исследователи в компании Google и в Стэнфордском университете разработали программное обеспечение, которое может распознать целую сцену, после чего написать заголовок, точно описывающий всю картину.
Благодаря этим возможностям, программа позволит эффективно структурировать и разобрать миллиарды изображений и часов видео, которые, как правило, имеют довольно неточные описания.
Поисковые системы, такие как Google, в основном, ориентируются на прикрепленные к изображению или видео заголовки, которые позволяют понять, о чем в них идет речь.
Директор Стэнфордской лаборатории изучения искусственного интеллекта Фэй-Фэй Ли опубликовала свои выводы в виде технического отчета Стэнфордского университета.
Между тем, исследовательская группа Google опубликовала свою собственную научно-исследовательскую работу на сайте arXiv.org.
Новое исследование может привести к новым возможностям для видеонаблюдения и позволит правоохранительным органам точно распознавать людей и даже предсказывать определенные типы поведения.
В настоящее время, программное обеспечение для распознавания изображений от Google способно определить кошек среди 10 миллионов изображений, случайно взятых из YouTube, а программа распознавания, используемая в автомобилях, может определить пешеходов и велосипедистов (с помощью видеокамер, расположенных на лобовом стекле) и автоматически остановить машину, чтобы предотвратить столкновение.
Тем не менее, обе эти программы нацелены только на сами объекты и не имеют понимания того, что на самом деле происходит на изображении. Обе исследовательские группы Google и Stanford надеются решить эту проблему путем разработки компьютерных программ, которые могут обучаться идентифицировать общие черты и находить закономерности в полученных данных.
В обоих случаях, группы смогли обучить программу подписями сопровождать небольшие наборы цифровых изображений. После того как программное обеспечение эффективно расшифровало наборы изображений и подписей, исследователи добавили новые кадры, что должно удвоить точность предыдущих расчетов.
Обе исследовательские группы Google и Stanford считают, что они смогут значительно повысить точность, обновляя свое программное обеспечение и обучая его использовать большие наборы озаглавленных изображений.
Источник www.biometricupdate.com. Перевод новости выполнила администратор сайта Елена Пономаренко.