Face Outline Alignment via Constrained Average Displacement



Over the last ten years deformable model fittinghas been gained popularity in the computer society. Thus various methods wereintroduced with varying degrees of success. This article offers optimizationstrategy that based on nonparametric distribution of the landmark. Updated equation slightly reminds mean shifts method but with asubspace constraint placed on the shape’s variability. This method is shown tooutperform common approaches on the task of generic face fitting.

Keywords: dynamic models, deformable, shape alignment

Определение контуров лица методом ограниченного среднего сдвига

За последние десять лет динамические модели определения контура лица обрели популярность в компьютерном сообществе. Таким образом были представлены различные подходы с разной степенью успеха. В данной статье предлагается стратегия оптимизации, основанная на непараметрическом распределении вокруг ключевых точек. Этот подход основан на методе среднего сдвига,но имеет ограничением по перемещению. Представленный метод опережает широко известные подходы определения контура лица.

Введение

Определение динамической модели лица – это проблема проецирования параметризированной математической модели на изображение в необходимом месте, то есть в области лица. Это нелегкая проблема, которая требует работы с 3D-проекцией, где часто бывает затруднительно определить область лица и его контуры из-за изменений в освещении, шума изображения, разного угла наклона лица, плохого качества изображения и т. д.

В этой статье были рассмотрены несколько популярных стратегий оптимизации и введем один новый.

Постановка задачи

В последние годы было предложено несколько подходов для определения модели лица. Их можно разделить по принципу построения модели – построение по ключевым точкам либо построение целостной модели. Первый принцип значительно точнее[1], а также требует меньшую вычислительную мощность, но но требует стратегий оптимизации из-за неоднозначности обнаружения и накладывания патчей друг на друга. Основная цель работы состоит в понимании того, что существующие методы оптимизации в целом упрощают непараметрическое распределение вокруг ключевых точек, а также рассмотрении более эффективного метода оптимизации – непараметрического.

Методы решения задачи

Рассмотрим популярные методы оптимизации для моделей, построенных по ключевым точкам, где модель представляется на основе вспомогательных участков (патчей), которые привязаны к точкам [2, 5, 16]. Этот подход более продуктивен, чем целостное представление модели [10, 11].

В свою очередь для моделей, построенных по ключевым точкам, существует два способа оптимизации: параметризированный (например Active Shape Models, Convex Quadratic Fitting [3]), где пределы возможных отклонений заранее предопределены, и непараметризированный (например Mean Shifts Method), где пределы определяются итеративно. Пример последний был представлен в работе и основан на алгоритме контролируемого среднего сдвига.

Локальные модели с ограничением

Вспомним категории геометрических преобразований – бывают линейные (жесткие) и эластичные (нежесткие) преобразования.Первые включают в себя поворот, перемещение, отображение и прочие аффинные преобразования.

Линейные преобразования носят глобальный характер, и их нельзя использовать для моделирования локальных геометрических разностей у изображения. Вторая же категория позволяет проводить локальные деформации, в т. ч. базисные функции и сплайны поверхностей.

Большинство способов накладывания модели используют линейную аппроксимацию при изменения формы объекта вокруг ключевой точки и образуют модель распределения точек (point distribution model – PDM [2]), которая моделирует локальное нежесткое преобразование и сопоставляет его с глобальным жестким, помещая полученный контур на исходное изображение:

\[{{x}_{i}}=sR\left( {{{\bar{x}}}_{i}}+{{\Phi}_{i}}q \right)+t,\quad\quad\quad(1)\]

где xi определяет 2D-координаты PDM для i-й ключевойточки.

Зададим p = {s,R, t, q} как множество параметров PDM, где s – глобальное масштабирование, R – поворот, t – перемещение и q –нежесткие параметры. ${{\bar{x}}_{i}}$ представляет среднее значение 2D-координат ключевой точки PDM $\left( {{{\bar{x}}}_{1}}=\left[{{{\bar{x}}}_{i}};{{{\bar{y}}}_{i}} \right] \right)$, а Φi –базисная матрица, относящаяся к ключевой точке.

В последние годы подход, использующий локальные определители (ключевые точки) стал популярен [2, 3, 4, 16], так как нивелирует многие недостатки целостного метода моделирования, таких как сложность построения целостной модели и чувствительность к смене освещения. Эти подходы используют метод моделей с локальным ограничением (constrained local models, далее – CLM).

Все CLM преследуют две цели: выполнение исчерпывающего поиска для каждой PDM вокруг ключевой точки используя специальный детектор и оптимизация параметров р PDM из-за обильного накладывания патчей друг на друга. На рисунке 1 изображен пример работы CLM в общем виде.

Рисунок 1 – Использование CLM

Исчерпывающий локальный поиск

Первый шаг использования CLM состоит в построении матрицы вероятностей для каждой ключевой точки с помощью локальных детекторов для ограниченного пространства вокруг самой точки.

Один из простейших детекторов – линейный логический регрессор [12], который выдает такую матрицу вероятностей для i-й ключевой точки. Определим плотность вероятности р:

\[p({{l}_{i}}=aligned|I,x)=\frac{1}{1+\exp\left\{ \alpha {{C}_{i}}(I;x)+\beta \right\}},\quad\quad\quad(2)\]

где li– случайная составляющая, которая определяет, в правильном ли месте находится ключевая точка (aligned), I – исходное изображение, x – координаты, Ci – линейный классификатор:

\[{{C}_{i}}\left(I;x \right)=w_{i}^{T}\left[ I\left( {{y}_{1}} \right);...;I\left( {{y}_{m}}\right) \right]+{{b}_{i}},\quad\quad\quad(3)\]

где _wi_ весовая функция, bi – смещение, а $\left\{{{y}_{i}} \right\}_{i=1}^{m}\in {{\Omega }_{x}}$, то есть входит в область патча вокруг ключевой точки.

Оптимизация. После применения детектора для каждой локальной точки (а их порядка 72) и с учетом условной независимости проведём оптимизацию методом максимального правдоподобия относительно параметров р:

\[p\left( \left\{{{l}_{i}}=aligned \right\}_{i=1}^{m}|p \right)=\prod\limits_{y=1}^{n}{p\left({{l}_{i}}=aligned|{{x}_{i}} \right)},\quad\quad\quad(4)\]

где xi параметризирован согласно уравнению (1).

При такой оптимизации следует избегать локально оптимального значения функции для достижения общей эффективности функции. Используя общее уравнение (4) для оптимизации можно достичь приемлемого результата при хорошем качестве исходных изображений.Но, так как результаты шумные, то такие стратегии оптимизации обычно нестабильные. Поэтому рассмотрим усовершенствованный способ оптимизации.

Оптимизация с ограничением среднего сдвига

При оптимизации вспомогательный участок $\left\{p\left( {{l}_{i}}|x \right) \right\}_{i=1}^{n}$ заменяют на более простую параметрическую или непараметрическую форму и оптимизируют уже её.

Один из простейших способов оптимизации используется в методе Active Shape Models [2]. Этот метод сперва предполагает поиск координат в пределах вспомогательные участки, где были присвоены локальные максимумы: $\mu =\left[ {{\mu }_{i}};...;{{\mu }_{n}} \right]$. Цель этой процедуры заключается в минимизации методом взвешенных наименьших квадратов разницы между PDM и координат peak response [11].

\[Q\left( p\right)=\sum\limits_{i=1}^{n}{{{w}_{i}}}{{\left| {{x}_{i}}-{{\mu }_{i}} \right|}^{2}},\quad\quad\quad(5)\]

Уравнение (5) и теративно минимизируется при помощи разложения по Тейлору первого порядка:

\[{{x}_{i}}\approx x_{i}^{c}+{{J}_{i}}\Delta p,\quad\quad\quad(6)\]

Но такая простая оптимизация часто не даёт желаемых результатов из-за того, что peak response (максимальное значение) не всегда совпадает с координатами ключевой точки.

Для решения этой проблемы был предложен метод выпуклого квадратического контура (convex quadratic fitting – CQF), который эквивалентен ковариационному распределению [12]:

\[p\left({{l}_{i}}=aligned|I,x \right)\approx N\left( x;{{\mu }_{i}};{{\sum }_{i}}\right),\quad\quad\quad(7)\]

Среднее значение и ковариация являются оценками максимального правдоподобия для вспомогательных участков:

\[{{\sum}_{i}}={{\sum }_{x\in {{\Psi }_{x_{i}^{c}}}}}\alpha _{x}^{i}\left( x-{{\mu}_{i}} \right){{\left( x-{{\mu }_{i}} \right)}^{T}}={{\sum }_{x\in {{\Psi}_{x_{i}^{c}}}}}\alpha _{x}^{i}x,\quad\quad\quad(8)\]

где \[{{\Psi }_{x_{i}^{c}}}\] –прямоугольная рамка с центром в текущей ключевой точке $x_{i}^{c}$;

$\alpha _{x}^{i}$ – нормализированный определитель [12]:

\[\alpha _{x}^{i}=\frac{p\left( {{l}_{i}}=aligned|I;x\right)}{{{\sum }_{y\in {{\Psi }_{x_{i}^{c}}}}}p\left( {{l}_{i}}=aligned|I;y\right)},\quad\quad\quad(9)\]

Вместо использования аппроксимации для каждого патча с использованием параметрической модели, рассмотрим использование непараметрического представления из-за большей точности метода. Используем ядерную оценку плотности распределения (kernel density estimate, далее – KDE) с изотропным ядром Гаусса [10]:

\[p\left({{l}_{i}}=aligned|I;x \right)\approx {{\sum }_{{{\mu }_{i}}{{\Psi}_{x_{i}^{c}}}}}\alpha _{{{\mu }_{i}}}^{i}N\left( x;{{\mu }_{i}};{{\sigma}^{2}}\mathbf{I} \right),\quad\quad\quad(10)\]

На рисунке 2 изображены вспомогательные участки для трёх точек и их аппроксимации с использованием разных способов оптимизации. Аппроксимация с KDE показана для σ2 $\in$ {20, 5, 1}.

Рисунок 2 – Использование патчей

Способ максимизации с KDE рассмотрен в алгоритме среднего сдвига [1]:

\[x_{i}^{\left( \tau+1 \right)}\leftarrow {{\sum }_{{{\mu }_{i}}\in {{\Psi}_{x_{i}^{c}}}}}\frac{\alpha _{{{\mu }_{i}}}^{i}N\left( x_{i}^{\left( \tau \right)};{{\mu }_{i}};{{\sigma}^{2}}\mathbf{I} \right)}{{{\sum }_{y\in {{\Psi }_{x_{i}^{c}}}}}\alpha_{y}^{i}N\left( x_{i}^{\left( \tau \right)};y;{{\sigma }^{2}}\mathbf{I} \right)}{{\mu }_{i}},\quad\quad\quad(11)\]

где $\tau$ – период итеративного процесса, который проходит, пока не удовлетворен критерий сходимости [6].

При использовании линейной модели в уравнении (6) и максимизации уравнения (4) Q-функция шага М принимает вид:

\[\Delta p={{\mathbf{J}}^{+}}\left[ x_{1}^{\left( \tau +1\right)}-x_{i}^{c};...;x_{n}^{\left( \tau +1 \right)}-x_{n}^{c} \right],\quad\quad\quad(12)\]

где J+- псевдообратное J, а xi(τ+1) средний итеративный сдвиг [12].

Используем полученные формулы для алгоритма ограниченного среднего сдвига.

Псевдокод алгоритма ограниченного среднего сдвига

Требуется: I, p {изображение, набор параметров}

  1. while not_converged(p) do
  2. Вычисление вспомогательных областей {Ур. (2)}
  3. Построение линейная модели {Ур. (6)}
  4. Вычисление псевдообратного Якобиана (J†)
  5. Инициализация обновления параметров: $\Delta $p $\leftarrow$ 0
  6. while not_converged($\Delta $p) do
  7. Вычисление среднего сдвига {Ур. (11)}
  8. Применения ограничения {Ур. (12)}
  9. end while
  10. Обновить параметры: p$\leftarrow $ p + $\Delta $p
  11. end while
  12. return p

Сравнение алгоритмов

Сравним работу рассмотренных методов на открытой базе лиц XM2VTS [9], которая состоит из 2360 фото 295 особей в различных позах и выражениях лица. Результаты эксперимента отображены на рисунке 3, где показано количество изображений, на которых было обнаружено возмущение,определяемое как среднеквадратическое отклонение.

Рисунок 3 – График зависимостей для базылиц XM2VTS

Использование вне базы лиц

Метод ограниченного сдвига с использованием KDE хорошо показал себя при определении контура лица даже с частичной преградой.

На рисунке 4 показано определение контуров лица в стандартных условиях, при частичной преграде и при резкой смене положения.

Рисунок 4 – Использование алгоритма в разных условиях

Заключение

В этой работе были рассмотрены существующие методы оптимизации для динамических моделей, построенных по ключевым точкам, а также был представлен один из способов непараметрической оптимизации. Сравнительный график показал, что указанный метод превосходит классические методы оптимизации, а также превосходно показал себя на тестовых испытаниях. В дальнейшем планируется изучить влияние разных типов локальных детекторов и форму модели по умолчанию для улучшения общей стратегии алгоритма оптимизации и улучшения полученных результатов.

Список использованной литературы

[1] Y. Cheng. Mean Shift, Mode Seeking, and Clustering, c. 790–799,1995.

[2] T. F. Cootes and C. J. Taylor.Active Shape Models - ‘Smart Snakes’, c. 266–275, 1992.

[3] D. Cristinacce and T. Cootes.Boosted Active Shape Models, c. 880–889, 2007.

[4] D. Cristinacce and T. F. Cootes. AComparison of Shape Constrained Facial Feature Detectors. Сборник FG, с. 375–380, 2004.

[5] D. Cristinacce and T. F. Cootes.Feature Detection and Tracking with Constrained Local Models, c. 929–938, 2004.

[6] M. Fashing and C. Tomasi. Mean Shiftas a Bound Opti- mization. Сборник PAMI, 27(3), 2005.

[7] L. Gu and T. Kanade. A Generative ShapeRegularization Model for Robust Face Alignment. ECCV’08, 2008.

[8] G. B. Huang, M. Ramesh, T. Berg, andE. Learned-Miller. Labeled Faces in the Wild: A Database for Studying FaceRecognition in Unconstrained Environments. Technical Re- port 07-49, Universityof Massachusetts, Amherst, 2007.

[9] K. Messer, J. Matas, J. Kittler, J.Lu¨ttin, and G. Maitre. XM2VTSDB: The Extended M2VTS Database. Сборник AVBPA,с. 72–77, 1999.

[10] M. A. C.-P. na´n and C. K. I.Williams. On the Number of Modes of a Gaussian Mixture. Lecture Notes inComputer Science, 2695:625–640, 2003.

[11] M. H. Nguyen and F. De la TorreFrade. Local Minima Free Parameterized Appearance Models. CVPR, 2008.

[12] Y. Wang, S. Lucey, and J. Cohn. EnforcingConvexity for Im- proved Alignment with Constrained Local Models. CVPR, 2008.

May 23, 2016