ISBN :
Возрастное ограничение : 16
Дата обновления : 08.05.2024
* 1980-е – появление первых коммерческих систем компьютерного зрения
* 1990-е – появление систем компьютерного зрения, основанных на глубоком обучении и искусственных нейронных сетях
* 2000-е – появление систем компьютерного зрения, работающих в реальном времени
* 2010-е – активное развитие компьютерного зрения в области искусственного интеллекта, самое управления, дополненной реальности, компьютерных игр и социальных сетей.
В настоящее время обнаружение объектов является важной задачей в таких областях, как автономное вождение, видеонаблюдение, медицинская визуализация, управление производством и робототехника. Например, в автономном вождении обнаружение объектов используется для определения расположения других транспортных средств, пешеходов и препятствий на дороге. В видеонаблюдении обнаружение объектов позволяет обнаруживать и отслеживать движущиеся объекты на видеопотоке. В медицинской визуализации обнаружение объектов используется для выделения анатомических структур и патологий на медицинских изображениях.
На протяжении многих лет были разработаны различные методы обнаружения объектов, начиная от традиционных методов, основанных на признаках, до современных методов, основанных на глубоком обучении. В этой книге мы рассмотрим основные методы обнаружения объектов, их преимущества и недостатки, а также способы их применения в реальных задачах.
Книга состоит из семи глав. В первой главе мы кратко обсудим основные концепции компьютерного зрения и задачи обнаружения объектов. Во второй главе мы рассмотрим традиционные методы обнаружения объектов, основанные на признаках, такие как метод Хаара и метод гистограмм направленных градиентов (HOG). В третьей главе мы обсудим современные методы обнаружения объектов, основанные на глубоком обучении, такие как R-CNN, Fast R-CNN, Faster R-CNN и YOLO. В четвертой главе мы рассмотрим способы усовершенствования методов обнаружения объектов, такие как использование предварительного обучения, ансамблевых методов и повышение качества данных. В пятой главе мы обсудим приложения обнаружения объектов в различных областях, таких как автономное вождение, видеонаблюдение, медицинская визуализация, управление производством и робототехника. В шестой и седьмой главе создадим приложения для распознавания объектов.
Мы надеемся, что эта книга поможет вам получить основные знания в области обнаружения объектов в компьютерном зрении и применить их в реальных задачах. Мы также надеемся, что эта книга станет хорошим стартовым пунктом для будущих исследований в этой области.
В следующих главах мы будем детально рассматривать основные методы обнаружения объектов и способы их применения в реальных задачах. Мы начнем с традиционных методов, основанных на признаках, и постепенно перейдём к современным методам, основанным на глубоком обучении. В каждой главе мы предоставим практические примеры и упражнения, которые помогут вам лучше понять основные концепции и применить их в реальных задачах.
Глава 2
Обзор традиционных методов обнаружения объектов
В этом разделе мы рассмотрим три традиционных метода обнаружения объектов: метод Хаара, метод гистограмм направленных градиентов (HOG) и метод деформируемых частей (DPM).
Метод Хаара
Метод Хаара был разработан Паулем Виола и Майклом Джонсом в 2001 году для обнаружения лиц на изображениях. Алгоритм основан на использовании интегральных изображений и Хааровских признаков для быстрого поиска объектов на изображении.
Интегральное изображение – это изображение, в котором каждый пиксель хранит сумму яркости всех пикселей в прямоугольнике, лежащем выше и слева от этого пикселя. Интегральное изображение может быть вычислено за один проход по изображению, и это позволяет быстро вычислять сумму яркости для любого прямоугольника на изображении.
Хааровские признаки – это набор признаков, которые характеризуют текстуру изображения. Они были разработаны Альфредом Хааром в 1910 году и используются для обнаружения границ и углов на изображении. Хааровские признаки могут быть вычислены для любого размера окна, и это делает их удобными для использования в методе Хаара.
Для обнаружения объекта на изображении используется каскад классификаторов, каждый из которых основан на Хааровских признаках. Каждый классификатор отсеивает часть отрицательных примеров, и только объекты, которые прошли все классификаторы, считаются положительными примерами.
Иллюстрация 2.1: Пример каскада классификаторов в методе Хаара в реальной системе фиксации
Метод Хаара широко используется для обнаружения лиц, но он также может быть применён к другим классам объектов, таким как пешеходы, машины и т.д.
Метод гистограмм направленных градиентов (HOG)
Метод гистограмм направленных градиентов (HOG) был разработан Нилом Далала и Биллом Тримбаллом в 2005 году. Метод основан на использовании градиентов яркости для выделения силуэта объекта.
Алгоритм HOG состоит из нескольких этапов:
1. Выделение градиентов яркости для каждого пикселя на изображении.
2. Группировка пикселей в ячейки и вычисление гистограммы направленных градиентов для каждой ячейки.
3. Группировка ячеек в блоки и нормализация гистограмм направленных градиентов для каждого блока.
4. Выделение признаков из нормализованных гистограмм направленных градиентов.
Иллюстрация 2.2:
Гистограммы направленных градиентов характеризуют текстуру изображения и могут быть использованы для обнаружения объектов. Для классификации объектов используется алгоритм поддержки векторов машин (SVM), который обучается на наборе положительных и отрицательных примеров.
Метод HOG широко используется для обнаружения объектов, таких как пешеходы и машины, и он является одним из самых эффективных методов обнаружения объектов на сегодняшний день.
Модель деформируемых деталей (DPM) – популярный алгоритм обнаружения объектов, который был представлен Педро Фельценшвалбом, Россом Гиршиком, Дэвидом Макаллестером и Девой Рамананом в 2010 году. Алгоритм основан на модели деформируемых деталей, которая позволяет изменять форму объекта и поза.
Алгоритм DPM состоит из нескольких компонентов, включая экстрактор признаков, классификатор и модель деформируемых деталей. Экстрактор признаков отвечает за извлечение признаков из входного изображения, а классификатор используется для классификации этих признаков как принадлежащих объекту или. Фон Модель деформируемых частей используется для моделирования формы и положения объекта, позволяя изменять внешний вид объекта.
Алгоритм DPM сначала извлекает признаки из входного изображения с помощью средства извлечения признаков, такого как гистограмма ориентированных градиентов (HOG) или сверточная нейронная сеть (CNN). Эти признаки затем передаются через классификатор, который обучен различать. между объектом и фоновыми признаками Классификатор выводит оценку для каждого признака, указывающую вероятность того, что признак принадлежит объекту.
Модель деформируемых частей затем используется для моделирования формы и положения объекта. Модель состоит из набора частей, каждая из которых связана с определенным местоположением и ориентацией. Части соединены пружинами, которые позволяют изменять форму объекта. и поза Модель обучена минимизировать разницу между прогнозируемой формой объекта и фактической формой объекта, а также разницу между прогнозируемой и фактической позой объекта.
После обучения модели ее можно использовать для обнаружения объектов на новых изображениях. Алгоритм сначала извлекает признаки из входного изображения с помощью экстрактора признаков. Затем эти признаки передаются через классификатор, который выводит оценку для каждого признака. Модель деформируемых частей затем используется для объединения оценок отдельных элементов в оценку всего объекта. Алгоритм ищет объект с наивысшей оценкой на изображении и возвращает ограничивающую рамку и метку класса для этого объекта.
Алгоритм DPM использовался для достижения самых современных результатов в нескольких тестах обнаружения объектов, включая наборы данных PASCAL VOC и ILSVRC. Алгоритм также широко используется в практических приложениях, таких как автономное вождение, наблюдение и робототехника.
Пример того, как алгоритм DPM можно использовать для обнаружения объектов на изображении:
import cv2
import numpy as np
from sklearn.externals import joblib
# Load the trained DPM model
model = joblib.load('dpm_model.pkl')
# Load the input image
img = cv2.imread('input.jpg')
# Convert the image to grayscale
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
# Detect objects in the image using the DPM algorithm
rects = model.detect(gray, threshold=0.5)
Все книги на сайте предоставены для ознакомления и защищены авторским правом