Триангуляция (компьютерное зрение) - Triangulation (computer vision)

В компьютерное зрение триангуляция относится к процессу определения точки в трехмерном пространстве по ее проекциям на два или более изображений. Чтобы решить эту проблему, необходимо знать параметры функции проецирования камеры из 3D в 2D для задействованных камер, в простейшем случае представленный матрицы камеры. Триангуляцию иногда также называют реконструкция или же пересечение.

Задача триангуляции в принципе тривиальна. Поскольку каждая точка на изображении соответствует линии в трехмерном пространстве, все точки на линии в трехмерном пространстве проецируются на точку на изображении. Если пара соответствующие точки на двух или более изображениях могут быть найдены, это должно быть так, что они являются проекцией общей трехмерной точки Икс. Набор линий, образованных точками изображения, должен пересекаться в Икс (Трехмерная точка) и алгебраическая формулировка координат Икс (Трехмерная точка) может быть вычислена различными способами, как показано ниже.

Однако на практике координаты точек изображения не могут быть измерены с произвольной точностью. Вместо этого различные типы шума, такие как геометрический шум из-за искажения объектива или ошибки обнаружения точки интереса, приводят к неточностям в измеренных координатах изображения. Как следствие, линии, образованные соответствующими точками изображения, не всегда пересекаются в трехмерном пространстве. Таким образом, проблема состоит в том, чтобы найти трехмерную точку, которая оптимально соответствует измеренным точкам изображения. В литературе есть множество предложений о том, как определить оптимальность и как найти оптимальную трехмерную точку. Поскольку они основаны на разных критериях оптимальности, разные методы дают разные оценки трехмерной точки. Икс когда присутствует шум.

Вступление

В дальнейшем предполагается, что триангуляция выполняется на соответствующих точках изображения из двух видов, созданных с помощью камеры-обскуры. Обсуждаются обобщения этих предположений. здесь.

Идеальный случай эпиполярной геометрии. 3D-точка Икс проецируется на изображение с двух камер через линии (зеленые), которые пересекаются с фокусной точкой каждой камеры, О₁ и О₂. Полученные точки изображения у₁ и у₂. Зеленые линии пересекаются в Икс.

На практике изображение указывает у₁ и у₂ невозможно измерить с произвольной точностью. Вместо очков y '₁ и y '₂ обнаруживаются и используются для триангуляции. Соответствующие линии проекции (синие), как правило, не пересекаются в трехмерном пространстве, а также могут не пересекаться с точкой Икс.

Изображение слева иллюстрирует эпиполярная геометрия пары стереокамер модель точечного отверстия. Точка Икс (3D-точка) в 3D-пространстве проецируется на соответствующую плоскость изображения по линии (зеленой), проходящей через координационный центр, ${displaystyle mathbf {O} _ {1}}$ и ${displaystyle mathbf {O} _ {2}}$ , в результате чего две соответствующие точки изображения ${displaystyle mathbf {y} _ {1}}$ и ${displaystyle mathbf {y} _ {2}}$ . Если ${displaystyle mathbf {y} _ {1}}$ и ${displaystyle mathbf {y} _ {2}}$ даны и геометрия двух камер известна, две линии проекции (зеленые линии) могут быть определены, и они должны пересекаться в точке Икс (3D точка). Используя базовый линейная алгебра эту точку пересечения можно определить простым способом.

Изображение справа показывает реальный случай. Положение точек изображения ${displaystyle mathbf {y} _ {1}}$ и ${displaystyle mathbf {y} _ {2}}$ нельзя точно измерить. Причина - сочетание таких факторов, как

Например, геометрическое искажение искажение объектива, что означает, что преобразование камеры из 3D в 2D отличается от модель камеры-обскуры. В некоторой степени эти ошибки можно компенсировать, оставив остаточную геометрическую ошибку.
Единственный луч света от Икс (3D-точка) рассеивается в системе линз камер в соответствии с функция разброса точки. Восстановление соответствующей точки изображения по измерениям дисперсной функции интенсивности на изображениях дает ошибки.
В цифровой камере функция интенсивности изображения измеряется только в дискретных сенсорных элементах. Чтобы восстановить истинную, необходимо использовать неточную интерполяцию дискретной функции интенсивности.
Изображение указывает у₁^' и у₂' часто используются для триангуляции с использованием различных типов экстракторов признаков, например углов или точек интереса в целом. Существует внутренняя ошибка локализации для любого типа извлечения признаков на основе районные операции.

Как следствие, измеренные точки изображения ${displaystyle mathbf {y} '_ {1}}$ и ${displaystyle mathbf {y} '_ {2}}$ вместо ${displaystyle mathbf {y} _ {1}}$ и ${displaystyle mathbf {y} _ {2}}$ . Однако их линии проекции (синие) не должны пересекаться в трехмерном пространстве или приближаться к Икс. На самом деле эти прямые пересекаются тогда и только тогда, когда ${displaystyle mathbf {y} '_ {1}}$ и ${displaystyle mathbf {y} '_ {2}}$ удовлетворить эпиполярное ограничение определяется фундаментальная матрица. Учитывая шум измерения в ${displaystyle mathbf {y} '_ {1}}$ и ${displaystyle mathbf {y} '_ {2}}$ весьма вероятно, что эпиполярное ограничение не выполняется и линии проекции не пересекаются.

Это наблюдение приводит к проблеме, которую решает триангуляция. Какая 3D точка Икс_{стандартное восточное время} это лучшая оценка Икс данный ${displaystyle mathbf {y} '_ {1}}$ и ${displaystyle mathbf {y} '_ {2}}$ а геометрия камер? Ответ часто находится путем определения меры погрешности, которая зависит от Икс_{стандартное восточное время} а затем минимизировать эту ошибку. В следующих разделах рассматриваются некоторые из различных методов вычисления Икс_{стандартное восточное время} представленные в литературе кратко описаны.

Все методы триангуляции производят Икс_{стандартное восточное время} = Икс в случае, если ${displaystyle mathbf {y} _ {1} = mathbf {y} '_ {1}}$ и ${displaystyle mathbf {y} _ {2} = mathbf {y} '_ {2}}$ , то есть когда выполняется эпиполярное ограничение (кроме особых точек, см. ниже). То, что происходит, когда ограничение не выполняется, что различается между методами.

Характеристики

Метод триангуляции можно описать с помощью функции ${displaystyle au,}$ такой, что

{displaystyle mathbf {x} sim au (mathbf {y} '_ {1}, mathbf {y}' _ {2}, mathbf {C} _ {1}, mathbf {C} _ {2})}

куда ${displaystyle mathbf {y} '_ {1}, mathbf {y}' _ {2}}$ - однородные координаты точек детектированного изображения и ${displaystyle mathbf {C} _ {1}, mathbf {C} _ {2}}$ матрицы камеры. Икс (3D-точка) - однородное представление полученной 3D-точки. В ${displaystyle sim,}$ знак означает, что ${displaystyle au,}$ требуется только для создания вектора, который равен Икс с точностью до умножения на ненулевой скаляр, поскольку используются однородные векторы.

Прежде чем рассматривать конкретные методы, то есть конкретные функции ${displaystyle au,}$ , есть некоторые общие концепции, связанные с методами, которые необходимо объяснить. Выбор метода триангуляции для конкретной задачи в некоторой степени зависит от этих характеристик.

Особенности

Некоторые методы не позволяют правильно вычислить оценку Икс (3D-точка), если она лежит в определенном подмножестве 3D-пространства, соответствующем некоторой комбинации ${displaystyle mathbf {y} '_ {1}, mathbf {y}' _ {2}, mathbf {C} _ {1}, mathbf {C} _ {2}}$ . Точка в этом подмножестве тогда является необычность метода триангуляции. Причина неудачи может заключаться в том, что некоторая решаемая система уравнений недоопределена или что проективное представление Икс_{стандартное восточное время} становится нулевым вектором для особых точек.

Инвариантность

В некоторых приложениях желательно, чтобы триангуляция не зависела от системы координат, используемой для представления трехмерных точек; если задачу триангуляции сформулировать в одной системе координат, а затем преобразовать в другую, то получится оценка Икс_{стандартное восточное время} должны преобразоваться таким же образом. Это свойство обычно называют инвариантность. Не каждый метод триангуляции обеспечивает инвариантность, по крайней мере, не для общих типов преобразований координат.

Для однородного представления трехмерных координат наиболее общим преобразованием является проективное преобразование, представленное ${displaystyle 4 imes 4}$ матрица ${displaystyle mathbf {T}}$ . Если однородные координаты преобразовать согласно

{displaystyle mathbf {ar {x}} sim mathbf {T}, mathbf {x}}

то матрицы камеры должны преобразоваться как (C_k)

{displaystyle mathbf {ar {C}} _ ​​{k} sim mathbf {C} _ {k}, mathbf {T} ^ {- 1}}

для получения одинаковых однородных координат изображения (у_k)

{displaystyle mathbf {y} _ {k} sim mathbf {ar {C}} _ ​​{k}, mathbf {ar {x}} = mathbf {C} _ {k}, mathbf {x}}

Если функция триангуляции ${displaystyle au}$ инвариантен к ${displaystyle mathbf {T}}$ то должно выполняться следующее соотношение

{displaystyle mathbf {ar {x}} _ {m {est}} sim mathbf {T}, mathbf {x} _ {m {est}}}

откуда следует, что

{displaystyle au (mathbf {y} '_ {1}, mathbf {y}' _ {2}, mathbf {C} _ {1}, mathbf {C} _ {2}) sim mathbf {T} ^ {- 1}, au (mathbf {y} '_ {1}, mathbf {y}' _ {2}, mathbf {C} _ {1}, mathbf {T} ^ {- 1}, mathbf {C} _ { 2}, mathbf {T} ^ {- 1}),}

для всех

{displaystyle mathbf {y} '_ {1}, mathbf {y}' _ {2}}

Для каждого метода триангуляции можно определить, действительно ли это последнее соотношение. Если это так, это может быть выполнено только для подмножества проективных преобразований, например жестких или аффинных преобразований.

Вычислительная сложность

Функция ${displaystyle au}$ является лишь абстрактным представлением вычисления, которое на практике может быть относительно сложным. Некоторые методы приводят к ${displaystyle au}$ которая является непрерывной функцией замкнутой формы, в то время как другие необходимо разложить на серию вычислительных шагов, включающих, например, СВД или найти корни многочлена. Еще один класс методов приводит к ${displaystyle au}$ который должен полагаться на итеративную оценку некоторых параметров. Это означает, что как время вычислений, так и сложность задействованных операций могут различаться для разных методов.

Методы

Метод средней точки

Каждая из двух точек изображения ${displaystyle mathbf {y} '_ {1}}$ и ${displaystyle mathbf {y} '_ {2}}$ имеет соответствующую линию проекции (синюю на правом изображении выше), здесь обозначенную как ${displaystyle mathbf {L} '_ {1}}$ и ${displaystyle mathbf {L} '_ {2}}$ , который можно определить по матрицам камер ${displaystyle mathbf {C} _ {1}, mathbf {C} _ {2}}$ . Позволять ${displaystyle d,}$ быть функцией расстояния между (3D линией) L₁' и Икс (3D-точка) такая, что ${displaystyle d (mathbf {L}, mathbf {x})}$ это евклидово расстояние между ${displaystyle mathbf {L}}$ и ${displaystyle mathbf {x}}$ . метод средней точки находит точку Икс_{стандартное восточное время} что сводит к минимуму

{displaystyle d (mathbf {L} '_ {1}, mathbf {x}) ^ {2} + d (mathbf {L}' _ {2}, mathbf {x}) ^ {2}}

Оказывается, что Икс_{стандартное восточное время} лежит точно в середине самого короткого отрезка линии, соединяющего две линии проекции.

Прямое линейное преобразование

Через существенную матрицу

Проблема, которую предстоит решить, заключается в том, как вычислить ${displaystyle (x_ {1}, x_ {2}, x_ {3})}$ с учетом соответствующих нормализованных координат изображения ${displaystyle (y_ {1}, y_ {2})}$ и ${displaystyle (y '_ {1}, y' _ {2})}$ . Если основная матрица известен и соответствующие преобразования поворота и сдвига определены, этот алгоритм (описанный в статье Лонге-Хиггинса) обеспечивает решение.

Позволять ${displaystyle mathbf {r} _ {k}}$ обозначить строку k матрицы вращения ${displaystyle mathbf {R}}$ :

{displaystyle mathbf {R} = {egin {pmatrix} -mathbf {r} _ {1} - - mathbf {r} _ {2} - - mathbf {r} _ {3} -end {pmatrix}}}

Комбинирование вышеуказанных отношений между трехмерными координатами в двух системах координат и сопоставления между трехмерными и двумерными точками, описанными ранее, дает

{displaystyle y '_ {1} = {frac {x' _ {1}} {x '_ {3}}} = {frac {mathbf {r} _ {1} cdot ({ilde {mathbf {x}} } -mathbf {t})} {mathbf {r} _ {3} cdot ({ilde {mathbf {x}}} - mathbf {t})}} = {frac {mathbf {r} _ {1} cdot ( mathbf {y} -mathbf {t} / x_ {3})} {mathbf {r} _ {3} cdot (mathbf {y} -mathbf {t} / x_ {3})}}}

или же

{displaystyle x_ {3} = {frac {(mathbf {r} _ {1} -y '_ {1}, mathbf {r} _ {3}) cdot mathbf {t}} {(mathbf {r} _ { 1} -y '_ {1}, mathbf {r} _ {3}) cdot mathbf {y}}}}

Один раз ${displaystyle x_ {3}}$ определяется, две другие координаты могут быть вычислены как

{displaystyle {egin {pmatrix} x_ {1} x_ {2} end {pmatrix}} = x_ {3} {egin {pmatrix} y_ {1} y_ {2} end {pmatrix}}}

Приведенный выше вывод не уникален. Также можно начать с выражения для ${displaystyle y '_ {2}}$ и получить выражение для ${displaystyle x_ {3}}$ в соответствии с

{displaystyle x_ {3} = {frac {(mathbf {r} _ {2} -y '_ {2}, mathbf {r} _ {3}) cdot mathbf {t}} {(mathbf {r} _ { 2} -y '_ {2}, mathbf {r} _ {3}) cdot mathbf {y}}}}

В идеальном случае, когда камера отображает трехмерные точки в соответствии с идеальной камерой-обскурой, и результирующие двумерные точки могут быть обнаружены без какого-либо шума, два выражения для ${displaystyle x_ {3}}$ равны. Однако на практике это не так, и может быть полезно объединить две оценки ${displaystyle x_ {3}}$ , например, с точки зрения какой-то средней.

Возможны также другие типы расширений вышеупомянутых вычислений. Они начали с выражения координат изображения со штрихом и вывели трехмерные координаты в системе без штриховки. Также можно начать с координат изображения без штриха и получить трехмерные координаты с штрихами, которые, наконец, можно преобразовать в трехмерные координаты без штриха. Опять же, в идеальном случае результат должен быть равен приведенным выше выражениям, но на практике они могут отличаться.

Последнее замечание касается того факта, что если существенная матрица определяется из соответствующей координаты изображения, что часто имеет место, когда трехмерные точки определяются таким образом, вектор переноса ${displaystyle mathbf {t}}$ известно только с точностью до неизвестного положительного масштабирования. Как следствие, восстановленные трехмерные точки также не определены в отношении положительного масштабирования.

Оптимальная триангуляция

Смотрите также

внешняя ссылка

Два взгляда и многовидовой триангуляция в Matlab