Дві окремі дослідницькі групи, незалежно один від одного, розробили програмне забезпечення, яке здатне не тільки точно розпізнавати зміст фотографій і відео, але і може описувати цілі сцени - про це йдеться в доповіді, опублікованій в National Post.
Дослідники в компанії Google і в Стенфордському університеті розробили програмне забезпечення, яке може розпізнати цілу сцену, після чого написати заголовок, який точно описує всю картину.

Завдяки цим можливостям, програма дозволить ефективно структурувати і розібрати мільярди зображень і годин відео, які, як правило, мають досить неточні описи.

Пошукові системи, такі як Google, в основному, орієнтуються на прикріплені до зображення або відео заголовки, які дозволяють зрозуміти, про що в них йдеться.

Директор Стенфордської лабораторії вивчення штучного інтелекту Фей-Фей Лі опублікувала свої висновки у вигляді технічного звіту Стенфордського університету.

Тим часом, дослідницька група Google опублікувала свою власну науково-дослідницьку роботу на сайті arXiv.org.

Нове дослідження може привести до нових можливостей для відеоспостереження і дозволить правоохоронним органам точно розпізнавати людей і навіть передбачати певні типи поведінки.

В даний час, програмне забезпечення для розпізнавання зображень від Google здатне визначити кішок серед 10 мільйонів зображень, випадково взятих з YouTube, а програма розпізнавання, яка використовується в автомобілях, може визначити пішоходів і велосипедистів (за допомогою відеокамер, розташованих на лобовому склі) і автоматично зупинити машину, щоб запобігти зіткненню.

Проте, обидві ці програми націлені тільки на самі об'єкти і не мають розуміння того, що насправді відбувається на зображенні. Обидві дослідницькі групи Google і Stanford сподіваються вирішити цю проблему шляхом розробки комп'ютерних програм, які можуть навчатися ідентифікувати загальні риси і знаходити закономірності в отриманих даних.

В обох випадках, групи змогли навчити програму підписами супроводжувати невеликі набори цифрових зображень. Після того як програмне забезпечення ефективно розшифрувало набори зображень і підписів, дослідники додали нові кадри, що має подвоїти точність попередніх розрахунків.

Обидві дослідницькі групи Google і Stanford вважають, що вони зможуть значно підвищити точність, оновлюючи своє програмне забезпечення і навчаючи його використовувати великі набори озаголовлених зображень.

Джерело www.biometricupdate.com. Переклад новини виконала адміністратор сайту Олена Пономаренко.