딥러닝 기반 2D/3D 멀티모달 객체 분석 기법
관련링크
본문
인공지능(AI)은 방대한 데이터를 단순히 처리하는 도구를 넘어, 복잡한 환경 속에서 스스로 학습하고 의사결정을 내리는 핵심 기술로 발전하였다. 특히 영상, 음성, 3차원 공간 정보 등 다양한 데이터를 동시에 이해하고 결합하는 멀티모달 인식(Multimodal Understanding)은 자율주행, 로보틱스, 보안, 디지털 트윈과 같은 차세대 산업의 혁신을 이끄는 핵심 요소로 주목받고 있다.
본 연구실은 이미지, 영상, 포인트 클라우드 등 이질적인 데이터를 융합하여 강인한 객체 인식·세그멘테이션·추적 기법을 개발한다. 기존 연구들이 2D 영상이나 3D 센서 중 하나에만 특화되어 있었던 것과 달리, 우리의 접근은 멀티모달 데이터의 상호보완성을 활용하여 실제 환경에서도 높은 정확도와 안정성을 보장하는 객체 분석 시스템을 구현한다. 이를 통해 동적이고 복잡한 장면에서도 실시간으로 다중 객체를 인식·추적할 수 있는 차세대 인공지능 플랫폼을 제시한다.
● 2D/ 3D 데이터 전처리
- 대규모 영상·포인트 클라우드 데이터셋으로부터 객체의 다각적 시점 이미지를 수집하고, 각 데이터에 대해 멀티모달 특징 표현(Visual Embedding + Geometric Embedding)을 생성한다.
- 2D 데이터는 밝기·각도 변화 등에 대응하도록 정규화하고, 3D 데이터는 세분화 및 노이즈 제거를 통해 안정적인 분석이 가능하도록 전처리 수행
그림 1 2D/3D 데이터 전처리 개요
● 멀티모달 객체 탐지 단계
- 2D 영상에서는 딥러닝 기반 관심 영역(Region Proposal Network, Transformer-based Detector)을 적용하여 후보 객체를 검출한다.
- 3D 포인트 클라우드에서는 3D Bounding Box Regression 및 Point-based Segmentation 기법을 통해 객체의 공간적 범위를 탐지한다.
- 이후, Cross-Attention 기반의 2D-3D Feature Alignment 기법을 이용하여 서로 다른 센서 모달리티에서 동일 객체를 정합(Matching)하고, 보다 정확한 객체 검출 결과를 얻는다.
그림 2 멀티모달 객체 탐지 모델
● 객체 세그멘테이션 및 대표 특징 추출
- 탐지된 객체에 대해 Mask-level Segmentation(2D)과 Instance-level Point Segmentation(3D)을 동시에 수행한다.
- 세그멘테이션 결과로부터 객체의 형상 특징(Shape Descriptor), 색상/재질 특징(Texture), 공간적 분포(Spatial Distribution)를 통계적으로 분석하고, 각 객체를 대표하는 핵심 특징 벡터를 데이터베이스에 기록한다.
그림 3 세그멘테이션 모델 개요
● 실시간 다중 객체 추적
- 연속적인 영상 및 포인트 클라우드 프레임에서 Kalman Filter 및 Transformer-based Motion Model을 결합하여 다중 객체의 궤적을 추적한다.
- 특히, 포인트 클라우드의 움직임 벡터(Motion Vector)를 계산하여 3차원 경로 추적이 가능하며, 이를 통해 차량, 보행자, 드론 등 다양한 동적 객체를 실시간으로 추적할 수 있다.
- 제안하는 기법은 모든 객체를 독립적으로 처리하기 때문에, 복잡한 장면에서도 다수의 객체를 동시에 인식하고 추적할 수 있다.