O3D-SIM создается путем проецирования 2D-масок и встраиваний в 3D, используя DBSCAN для начальной обработки.O3D-SIM создается путем проецирования 2D-масок и встраиваний в 3D, используя DBSCAN для начальной обработки.

Создание открытого 3D-представления: слияние признаков и объединение геометрических и семантических данных

2025/12/15 01:00

Резюме и 1 Введение

  1. Связанные работы

    2.1. Навигация с использованием зрения и языка

    2.2. Семантическое понимание сцены и сегментация экземпляров

    2.3. Реконструкция 3D-сцены

  2. Методология

    3.1. Сбор данных

    3.2. Семантическая информация открытого типа из изображений

    3.3. Создание 3D-представления открытого типа

    3.4. Навигация на основе языка

  3. Эксперименты

    4.1. Количественная оценка

    4.2. Качественные результаты

  4. Заключение и будущая работа, Заявление о раскрытии информации и Ссылки

3.3. Создание 3D-представления открытого типа

Для завершения построения O3D-SIM мы теперь опираемся на извлеченные для каждого объекта признаки, проецируя информацию об объекте в 3D-пространство, выполняя кластеризацию и связывая объекты на нескольких изображениях для создания комплексного 3D-представления сцены. Процесс проецирования семантической информации в 3D-пространство и уточнения карты показан на Рисунке 3.

\ 3.3.1. Инициализация O3D-SIM

\ 3D-карта изначально создается с использованием выбранного изображения, которое выступает в качестве опорного кадра для инициализации представления нашей сцены. Этот шаг устанавливает фундаментальную структуру нашей 3D-сцены, которая затем постепенно дополняется данными из последующих изображений для обогащения сложности и детализации сцены.

\ Данные для объектов в 3D-сцене организованы как узлы в словаре, который изначально пуст. Затем объекты идентифицируются из исходного изображения вместе с соответствующими данными, которые включают встраиваемые признаки и информацию об их масках. Для каждого объекта, различимого на изображении, создается 3D-облако точек с использованием доступной информации о глубине и маски объекта. Формирование этого облака точек включает отображение 2D-пикселей в 3D-пространство, что облегчается внутренними параметрами камеры и значениями глубины. Впоследствии положение камеры используется для точного выравнивания облака точек в глобальной системе координат. Для уточнения представления нашей сцены фильтрация фона удаляет элементы, идентифицированные как фон, такие как стены или полы. Эти элементы исключаются из дальнейшей обработки, особенно на этапе кластеризации, поскольку они не являются основным фокусом нашего представления сцены.

\ Набор облаков точек объекта обрабатывается далее с использованием кластеризации DBSCAN[34] для уточнения представления. Облако точек прореживается с помощью фильтрации воксельной сетки для уменьшения количества точек и вычислительной сложности, сохраняя при этом управляемую пространственную структуру данных. DBSCAN группирует точки, которые плотно упакованы вместе, помечая точки, которые находятся в областях с низкой плотностью, как шум. На этапе посткластеризации идентифицируется самый большой кластер, который обычно соответствует основному объекту интереса в облаке точек. Это помогает отфильтровать шум и нерелевантные точки, создавая более чистое представление объекта интереса.

\ Поза объекта в 3D-пространстве определяется путем расчета ориентации ограничивающего бокса, который предлагает краткое пространственное представление местоположения и размера объекта в 3D-пространстве. Впоследствии вывод 3D-карты инициализируется с начальным набором узлов, инкапсулирующих встраиваемые признаки, данные облака точек, ограничивающие боксы и количество точек в облаке точек, связанных с каждым узлом. Каждый узел также включает исходную информацию для облегчения отслеживания происхождения данных и связи между узлами и их 2D-изображениями.

\ 3.3.2. Инкрементное обновление O3D-SIM

\ После инициализации сцены мы обновляем представление данными из новых изображений. Этот процесс обеспечивает актуальность и точность нашей 3D-сцены по мере поступления дополнительной информации. Он выполняется для каждого изображения в последовательности; для каждого нового изображения извлекаются данные о нескольких объектах, и сцена обновляется.

\ Объекты обнаруживаются для каждого нового изображения, и новые узлы создаются как для исходного изображения. Эти временные узлы содержат 3D-данные для вновь обнаруженных объектов, которые должны быть либо объединены с существующей сценой, либо добавлены как новые узлы. Сходство между вновь обнаруженными и существующими узлами сцены определяется путем объединения визуального сходства, полученного из встраиваемых признаков, и пространственного (геометрического) сходства, полученного из перекрытия облаков точек, для формулирования совокупной меры сходства. Если эта мера превышает заранее определенный порог, считается, что новое обнаружение соответствует существующему объекту в сцене. Действительно, вновь обнаруженный узел либо объединяется с существующим узлом сцены, либо добавляется как новый узел.

\ Объединение включает интеграцию облаков точек и усреднение встраиваемых признаков. Рассчитывается взвешенное среднее встраиваний CLIP и DINO с учетом вклада из информации об исходном ключе, с предпочтением узлов с большим количеством исходных идентификаторов. Если необходимо добавить новый узел, он включается в словарь сцены.

\ Уточнение сцены происходит после добавления объектов со всех изображений во входной последовательности. Этот процесс объединяет узлы, представляющие одни и те же физические объекты, но изначально идентифицированные как отдельные из-за окклюзий, изменений точки зрения или подобных факторов. Он использует матрицу перекрытия для идентификации узлов, которые имеют общую пространственную занятость, и логически объединяет их в один узел. Сцена завершается путем отбрасывания узлов, которые не соответствуют минимальному количеству точек или критериям обнаружения. Это приводит к уточненному и оптимизированному окончательному представлению сцены - Семантические карты экземпляров 3D открытого типа, также известные как O3D-SIM.

\

:::info Авторы:

(1) Лакш Нанвани, Международный институт информационных технологий, Хайдарабад, Индия; этот автор внес равный вклад в эту работу;

(2) Кумарадитья Гупта, Международный институт информационных технологий, Хайдарабад, Индия;

(3) Адитья Матур, Международный институт информационных технологий, Хайдарабад, Индия; этот автор внес равный вклад в эту работу;

(4) Свайам Агравал, Международный институт информационных технологий, Хайдарабад, Индия;

(5) А.Х. Абдул Хафез, Университет Хасана Кальонджу, Шахинбей, Газиантеп, Турция;

(6) К. Мадхава Кришна, Международный институт информационных технологий, Хайдарабад, Индия.

:::


:::info Эта статья доступна на arxiv под лицензией CC by-SA 4.0 Deed (Attribution-Sharealike 4.0 International).

:::

\

Возможности рынка
Логотип OpenLedger
OpenLedger Курс (OPEN)
$0,18522
$0,18522$0,18522
-5,79%
USD
График цены OpenLedger (OPEN) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу [email protected] для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.