Наблюдая за жирафом в дикой природе и отвлёкшись на пару секунд, можно упустить момент когда животное опускает голову и садится. Но что, если наблюдателю интересен именно этот момент? Ученые из Центра перспективных исследований коллективного поведения Констанцского университета нашли способ кодировать позу и внешний вид животного, чтобы показать промежуточные движения, которые статистически вероятно имели место.
Одна из ключевых проблем компьютерного зрения заключается в том, что изображения невероятно сложны. Жираф может принимать чрезвычайно широкий спектр поз. Во время сафари обычно не составляет проблемы пропустить часть последовательности движений, но для изучения коллективного поведения эта информация может быть критически важной. Именно здесь на помощь приходят ученые с разработанной моделью «нейронного кукловода».
"Одна из идей компьютерного зрения заключается в том, чтобы описать очень сложное пространство изображений, закодировав как можно меньше параметров, — объясняет Бастиан Гольдлюке, профессор компьютерного зрения в Констанцском университете. Одним из часто используемых до сих пор представлений является скелет. В новой работе, опубликованной в начале марта в сборнике трудов 16-й Азиатской конференции по компьютерному зрению, Бастиан Гольдлюке и докторанты Урс Вальдманн и Симон Гибенхайн представляют нейросетевую модель, которая позволяет представлять последовательности движений и визуализировать внешний вид животных с любой точки зрения на основе всего нескольких ключевых точек.
«Идея заключалась в том, чтобы иметь возможность предсказывать 3D ключевые точки, а также отслеживать их независимо от текстуры, — говорит докторант Урс Вальдманн. — Поэтому мы создали систему ИИ, которая предсказывает силуэтные изображения с любого ракурса камеры на основе 3D ключевых точек». Обратный процесс также позволяет определить скелетные точки по силуэтным изображениям. На основе ключевых точек система ИИ способна рассчитать промежуточные движения, которые статистически вероятны. Использование индивидуального силуэта может быть важным.
В частности, эта модель находит применение в биологии: «В кластере „Центр перспективных исследований коллективного поведения“ мы видим, что отслеживаются многие виды животных, и в этом контексте также необходимо прогнозировать позы», — говорит Вальдманн.
Команда начала с предсказания силуэтных движений людей, голубей, жирафов и коров. Люди часто используются в качестве тестовых примеров в информатике, отмечает Вальдманн. Его коллеги из Кластера передового опыта работают с голубями. Однако их тонкие когти представляют собой настоящую проблему. Для коров имелись хорошие модельные данные, а чрезвычайно длинная шея жирафа стала вызовом для ученых. Команда создала силуэты на основе нескольких ключевых точек — всего от 19 до 33.
Отмечается, что «нейронный кукловод» готов к применению в реальном мире. Долгосрочной целью проекта является обучение модели на как можно большем количестве видов диких животных, чтобы получить новое представление о их поведении.
Источник: robogeek.ru