Исследование самоуправляемых преобразователей зрения для распознавания походки в дикой природе, часть 1

Nov 24, 2023

Абстрактный:

Манера ходьбы (походка) — это мощный биометрический показатель, используемый в качестве уникального метода снятия отпечатков пальцев, позволяющий проводить ненавязчивую поведенческую аналитику на расстоянии без участия субъекта.

Мы все знаем, что физические упражнения помогают хорошему здоровью. Помимо этого, физические упражнения также помогают улучшить память. Ходьба — самый простой и легкий для практики вид физических упражнений, и многие люди любят расслабляться во время ходьбы или пробежки. Теперь новые исследования показывают, что ходьба оказывает мощное воздействие на мозг.

Во-первых, ходьба стимулирует нервную систему мозга, что помогает укрепить его функции. Когда тело движется, частота сердечных сокращений и кровоток увеличиваются, что также стимулирует мозг производить больше нейронов и синапсов. Связи между этими нейронами и синапсами могут создавать новые нейронные сети и ускорять мыслительные процессы.

Во-вторых, ходьба может снять стресс и беспокойство, что очень важно для улучшения памяти. Когда разум и тело находятся в состоянии напряжения, депрессии или тревоги, мозг вырабатывает гормон кортизол. Кортизол повреждает нейроны и синапсы головного мозга, что может привести к потере памяти. Ходьба снимает стресс и беспокойство, снижает выработку кортизола в организме и помогает поддерживать здоровье нейронов и синапсов.

Наконец, ходьба увеличивает кровообращение в мозге. Некоторые исследования показывают, что хорошее кровообращение может помочь улучшить память. С возрастом кровеносные сосуды головного мозга постепенно закупориваются, что приводит к недостаточному снабжению мозга кислородом. Ходьба может улучшить здоровье сердца, позволяя сердцу более эффективно доставлять кислород и питательные вещества в мозг, тем самым улучшая память и работу мозга.

Таким образом, ходьба — отличный вид физических упражнений как для молодых, так и для пожилых людей. Помимо улучшения физического здоровья, ходьба также помогает улучшить память. Давайте каждый день проходить дистанцию, чтобы сделать себя здоровее и лучше! Видно, что нам необходимо улучшить память, а цистанхе пустынный может значительно улучшить память, потому что цистанхе пустынный — это традиционное китайское лекарственное средство, обладающее множеством уникальных эффектов, одним из которых является улучшение памяти. Эффективность мясного фарша обусловлена ​​различными содержащимися в нем активными ингредиентами, в том числе кислотами, полисахаридами, флавоноидами и т. д. Эти ингредиенты могут способствовать здоровью мозга различными способами.

improve memory

Нажмите «Знайте 10 способов улучшить память»

В отличие от более традиционных методов биометрической аутентификации, анализ походки не требует явного участия субъекта и может выполняться в настройках с низким разрешением, не требуя, чтобы лицо субъекта было беспрепятственно/видимо. Большинство современных подходов разрабатываются в контролируемых условиях с использованием чистых аннотированных данных, соответствующих золотому стандарту, что послужило основой для разработки нейронных архитектур для распознавания и классификации.

Лишь недавно анализ походки решился на использование более разнообразных, крупномасштабных и реалистичных наборов данных для предварительно обученных сетей с самоконтролем. Режим самоконтроля обучения позволяет изучать разнообразные и надежные представления походки без дорогостоящих ручных аннотаций, выполняемых человеком. В связи с повсеместным использованием модели трансформатора во всех областях глубокого обучения, включая компьютерное зрение, в этой работе мы исследуем использование пяти различных архитектур зрительных трансформаторов, непосредственно применяемых для самоконтролируемого распознавания походки.

Мы адаптируем и переобучаем простые ViT, CaiT, CrossFormer, Token2Token и TwinsSVT на двух разных крупномасштабных наборах данных о походке: GREW и DenseGait. Мы предоставляем обширные результаты для нулевого выстрела и точной настройки на двух эталонных наборах данных распознавания походки, CASIA-B и FVG, а также исследуем взаимосвязь между объемом пространственной и временной информации о походке, используемой визуальным преобразователем.

Наши результаты показывают, что при проектировании моделей трансформаторов для обработки движения используется иерархический подход (т. е. модели CrossFormer) на более детальных ярмарках движений сравнительно лучше, чем предыдущие подходы, основанные на целостном скелете.

Ключевые слова:

распознавание походки; биометрическая аутентификация; преобразователь зрения; оценка позы; самостоятельное обучение; контрастное обучение.

1. Введение

То, как мы двигаемся, содержит важные подсказки о нас самих. В частности, наша походка (манера ходьбы) тщательно изучается в медицине [1], психологии [2] и спортивной науке [3]. В последнее время анализ походки привлек повышенное внимание [4,5] со стороны сообщества информатиков, что совпало с экспоненциальным прогрессом глубокого обучения и широкой доступностью компьютерного оборудования.

Системы анализа походки на базе искусственного интеллекта смогли успешно распознавать субъектов [6–10], оценивать демографические данные, такие как пол и возраст [11], и оценивать внешние атрибуты, такие как одежда [12], без использования каких-либо внешних признаков. Эти результаты неудивительны, учитывая большое количество индивидуальных различий в походке, которые обусловлены различиями в скелетно-мышечной структуре, генетическими и экологическими факторами, а также эмоциональным состоянием и личностью ходока [13].

Современные системы действительно обучаются и тестируются только в контролируемых помещениях. Большинство методов используют набор данных CASIA-B [6] в качестве стандартного эталона для моделей распознавания походки, содержащий 124 субъекта, идущих в помещении строго контролируемым образом, снятых с помощью нескольких камер. Сложность реального мира невозможно полностью смоделировать с помощью таких ограниченных сценариев. Лишь недавно основное внимание уделялось моделированию походки «в дикой природе» с использованием таких наборов данных, как DenseGait [12], GREW [7] и Gait3D [14].

short term memory how to improve

Сбор крупномасштабного набора данных, который является чистым и полностью аннотированным, требует огромных усилий как с точки зрения финансовых ресурсов, так и с точки зрения выделенного времени. Сообщается, что для сбора и аннотирования набора данных GREW [7] потребовалось 3 месяца непрерывной работы. Хотя такие подходы оказались полезны при разработке нейронных архитектур для обработки походки [8,9], они недостаточно разнообразны, чтобы их можно было правильно использовать в более спокойной реальной среде.

Сообщество искусственного интеллекта постепенно отходит от этого подхода в других областях, при этом методы самостоятельного обучения как зрению [15], так и языку [16] набирают значительную популярность и часто превосходят традиционные контролируемые методы. Недавний прогресс в обучении с самоконтролем показал, что модели с самоконтролем более надежны и демонстрируют новое поведение, явно не определенное во время обучения.

Например, DINO [17], преобразователь зрения, обученный в режиме самоконтроля, изучил специфичные для класса функции, позволяющие сегментировать объекты без присмотра без использования каких-либо таких меток во время обучения. Космаанд Радой [10] предложил первый контрастный метод самостоятельного обучения для анализа походки, обучая ST-GCN [18] на уменьшенной версии DenseGait [12]. Их метод дал приемлемые результаты в задачах распознавания походки и показал, что существует сильная корреляция между размером предварительно обученного набора данных и производительностью передачи с нулевым выстрелом.

В то время как многие подходы к анализу походки используют силуэты, извлеченные из вычитания фона [6,8,9], извлечение силуэтов в реальных сценариях наблюдения предполагает использование более продвинутых методов, таких как сегментация экземпляров [19], что связано с высокими вычислительными затратами. Последовательности силуэтов занимают значительный объем памяти и недостаточно гибки для использования в других смежных задачах, таких как распознавание активности. Более того, силуэты кодируют тонкие внешние признаки, поэтому неясно, в какой степени движение используется при идентификации [20].

С другой стороны, 2D-модели оценки позы становятся все более точными и вычислительно эффективными [21,22]. Скелеты дешево извлекать, и в настоящее время они более надежны, чем 3D-сетки и 3D-позы, особенно на расстоянии. Более того, 2D-скелетоны значительно легче, чем силуэты, с точки зрения длительного хранения.

Современные архитектуры для обработки последовательностей скелетов используют структуру естественно-пространственных графов, присутствующую в человеческом скелете, что вносит индуктивный сдвиг в конструкцию модели. Такие модели, как популярные ST-GCN [18] и MS-G3D [23], показали впечатляющие результаты в распознавании действий на основе скелетов.

Одновременно с этим произошел взрывной рост использования моделей-трансформеров практически во всех областях глубокого обучения с момента их первоначального применения для обработки естественного языка.

Трансформаторы считаются более общей архитектурой с небольшим количеством индуктивных смещений. Первоначально трансформаторы изо всех сил пытались сопоставить модели CNN для классификации изображений [24], но в настоящее время они превосходят другие модели и показывают многообещающие результаты в сценариях с самоконтролем. -надзор [17].

Косма и Радой [12] были первыми, кто предложил GaitFormer, прямую адаптацию модели кодера преобразователя зрения для распознавания походки, использующую отдельные скелеты в качестве входных «патчей», по существу выполняя только временное внимание, игнорируя пространственные связи внимания.

GaitFormer обучался методом самоконтроля и превзошел другие методы распознавания походки даже без какой-либо тонкой настройки. Такая предыдущая работа обнадеживает и открывает путь для более глубокого изучения потенциального применения архитектуры трансформатора для анализа походки. Могут ли модели преобразователей зрения быть адаптированы для самостоятельного изучения изображений походки скелета?

Основной архитектурной проблемой преобразователей изображения является определение правильных отношений между фрагментами изображения, которые определяют локальную и глобальную информацию. Применительно к походке выбор размеров патча соответствует количеству закодированной временной и пространственной информации последовательности скелета.

В этой работе мы представляем обширное исследование пяти различных преобразователей зрения, адаптированных для распознавания походки. Мы исследуем классическую модель ViT [24], CaiT [25], CrossFormer [26], TwinsSVT [27] и ViT от токена к токену [28].

ways to improve memory

Каждая архитектура обучается отдельно контрастным самоконтролируемым способом на двух крупномасштабных наборах данных «в дикой природе» двухмерных последовательностей скелетов походки: DenseGait — автоматически собранный набор данных из необработанных потоков наблюдения и GREW — меньший набор данных, который содержит чистые человеческие аннотации.

Мы изучаем возможности передачи данных в двух контролируемых наборах данных для распознавания походки: CASIA [6] и FVG [29]. Для каждого набора данных мы анализируем прямую (нулевой) передачу и эффективность данных во время точной настройки путем обучения с постепенно увеличивающимися подмножествами наборов данных. Кроме того, мы проводим исследование взаимосвязи между пространственными и временными измерениями для размеров патчей для SimpleViT и CaiT. , стандартные магистрали для большинства преобразователей изображения на сегодняшний день.

Оставшаяся часть теста организована следующим образом. Мы проводим общий обзор связанных работ о моделях распознавания походки и преобразователях зрения. Мы заметили, что модели представления походки очень выигрывают от обучения с самоконтролем, поскольку имеют более надежные и общие вложения, а модели-трансформеры продемонстрировали большие возможности моделирования в режимах обучения с самоконтролем.

Кроме того, мы математически описываем пять архитектур, которые мы тестируем, и описываем предварительную обработку данных и преобразования скелета, которые необходимо выполнить, так что преобразователи изображения должны беспрепятственно работать с последовательностями скелетов. Мы также описываем увеличение данных, наборы данных для обучения и сравнительного анализа, а также экспериментальные установки.

Мы демонстрируем результаты CASIA-B и FVG для каждой из пяти архитектур и двух наборов данных «предварительного обучения в реальных условиях». Наконец, мы проводим абляционное исследование взаимосвязи между пространственными и временными размерами патчей и кратко обсуждаем наши результаты. Мы делаем наш исходный код общедоступным на GitHub (https://github.com/cosmaadrian/gait-vit, по состоянию на 28 февраля 2023 г.) в целях прозрачности и воспроизводимости.

2. Сопутствующая работа

В этом разделе мы сделаем краткий обзор существующих методов распознавания походки в контролируемых условиях и «в дикой природе». Далее мы опишем основные разработки моделей трансформаторов и, в частности, их применение в области машинного зрения.

2.1. Распознавание походки

Подобно идентификации по лицу, распознавание походки основано на изучении показателей. В отличие от традиционных методов биометрической аутентификации, которые основаны на одном изображении (например, распознавание лица) и требуют широкого сотрудничества (например, биометрическая аутентификация на основе радужной оболочки глаза), характеристики походки обрабатываются как последовательность снимков движения. Такая динамика жестов требует большей сложности в определении наиболее информативной подпоследовательности, но позволяет использовать ненавязчивую аутентификацию на расстоянии.

В этом контексте задача подразумевает обучение сети кодировщика отображению последовательностей ходьбы в пространство встраивания, где сходство встраивания соответствует сходству походки. Вложения прогулок, принадлежащих одному и тому же человеку, должны быть близки к пространству встраивания, а те, кто принадлежит к разным личностям, должны быть более отдаленными. В этом пространстве встраивания вывод можно сделать, получив вложение последовательности походок и используя ближайшего соседа. подход к базе данных известных прогулок.

Современные подходы к распознаванию на основе походки делятся на две категории: на основе внешнего вида [8,9] и на основе моделей [10,12,30]. Методы, основанные на внешнем виде, сначала получают силуэты идущих объектов с помощью алгоритмов вычитания фона или сегментации из каждого видеокадра.

Затем последовательность силуэтов передается в архитектуры на основе CNN, которые извлекают пространственные и временные характеристики, которые объединяются в окончательное внедрение для распознавания. Подходы, основанные на моделях, извлекают скелеты из RGB-видео с помощью моделей оценки позы [21,22]. Последовательности скелетов обычно обрабатываются моделями, которые полагаются на свертки графов [10,30] для получения встраивания походки.

GaitSet, работа Чао и др. [8] рассматривают походку как неупорядоченный набор силуэтов. Авторы утверждают, что это представление более гибкое, чем последовательность силуэтов, поскольку оно устойчиво к различному расположению кадров или комбинации нескольких направлений и вариаций ходьбы. Они используют слои свертки для каждого силуэта, чтобы получить функции уровня изображения и объединить их в объект уровня набора с помощью Set Pooling. Они получают окончательный результат, используя свою версию сопоставления горизонтальных пирамид [31].

Фан и др. [9] заметили тот факт, что определенные части человеческого силуэта должны иметь свое пространственно-временное выражение, поскольку каждая из них имеет уникальный рисунок. Их архитектура, GaitPart, использует слои фокальной свертки (FConvs), которые представляют собой специализированный тип свертки с более ограниченным рецептивным полем. Авторы утверждают, что FConv помогают их архитектуре изучать более детальные характеристики различных частей движущегося тела. Они также вводят модули захвата микродвижений, которые используются для извлечения особенностей небольших временных последовательностей.

Типе и др. [30] предлагают GaitGraph, который использует адаптированную сверточную сеть графов под названием ResGCN [32] для кодирования пространственно-временных характеристик, полученных из последовательности скелетов. Ли и др. [33] предлагают PTP, представляющую собой структуру, объединяющую множество временных характеристик одного цикла походки, на основе анализа наиболее важных этапов ходьбы.

Они также используют сверточную сеть графов для извлечения пространственных признаков, которая работает вместе с PTP. Авторы представляют новый метод дополнения данных, который изменяет походку, чтобы сделать несколько шагов в более реалистичном цикле.

Однако, в отличие от предыдущих работ, мы стремимся изучить эффективность архитектур распознавания походки в сценариях с самоконтролем. Вдохновленные огромным прогрессом в области компьютерного зрения, мы предлагаем адаптировать существующие архитектуры преобразователей машинного зрения для работы с последовательностями скелетов вместо изображений и проверить их возможности моделирования в сценариях с самоконтролем. Большинство других работ [8,9,30] сосредоточивают свои усилия на разработке нейронных архитектур, которые достигают впечатляющих результатов в распознавании походки на контролируемых наборах данных.

Тем не менее, мы намерены устранить необходимость в дорогостоящих ручных аннотациях для наборов данных о походке и изучить способы, с помощью которых обучение с самоконтролем подходит для анализа походки.

memory enhancement

Предыдущие работы в этой области [10,12] показали потенциал для изучения хороших представлений походки из слабо аннотированных наборов данных. Косма и Радой [12] предложили GaitFormer, первую архитектуру на основе трансформатора для обработки скелетных последовательностей, вдохновленную моделью ViT [24]. Подобно [12], мы пытаемся изучить производительность других моделей преобразователей зрения с различной пространственной и временной динамикой в ​​механизме обработки патчей. В прошлом были предложены крупномасштабные наборы данных для распознавания походки [7,12], что позволяет разрабатывать общие архитектуры для обучения представлениям.


For more information:1950477648nn@gmail.com


Вам также может понравиться