주요논문
DX2CT: Diffusion Model for 3D CT Reconstruction from Bi or Mono-planar 2D X-ray(s)
- ICASSP 2025
- 2025년 4월
- Yun Su Jeong, Hye Bin Yoo, Il Yong Chun
컴퓨터 단층 촬영(CT)은 고해상도의 의료 영상을 제공하지만, 환자에게 많은 방사선 노출을 일으킬 수 있습니다. X-선 스캐너는 방사선 노출은 낮지만 해상도가 낮다는 한계가 있습니다. 본 논문에서는 이 문제를 해결하기 위해 조건부 확산 모델(conditional diffusion model)인 DX2CT를 제안합니다. DX2CT는 단일 또는 이중 평면 X-선 영상으로부터 3차원 CT 볼륨을 재건하는 모델입니다. 제안된 DX2CT는 두 가지 핵심 요소로 구성됩니다. 1) 새로운 트랜스포머(transformer)를 사용하여 2차원 X-선 영상에서 추출한 특징을 3차원 CT 볼륨의 위치 정보를 사용해 조정. 2) 조정된 3D 위치 인식 특징을 DX2CT의 조건(condition)으로 사용. 특히, 제안된 트랜스포머는 목표 CT 슬라이스에 대한 풍부한 정보를 조건부 확산 모델에 제공할 수 있어, 고품질 CT 재건을 가능하게 합니다. 실험결과, 제안된 DX2CT는 단일 또는 이중 평면 X-선 데이터셋 벤치마크에서 여러 최신 기법(state-of-the-art)보다 우수한 성능을 보였습니다.
산학프로젝트 / 현장실습ᆞ인턴십
Driving Scene Reconstruction via 3D Gaussian Splatting
- 업체명
- AIM FUTURE, Inc.
- 기간
- 2024. 08. 15. ~ 2025. 02. 28.
ㅇ 2차원 영상을 입력받아 3차원 자율 주행 장면을 재건하는 일반화 가능한 3D Gaussian Splatting 모델 프레임워크 제안.
ㅇ 2단계의 Latent diffusion model 적용.
- Gaussian VAE: 입력 이미지를 잠재공간으로 압축 후 디코더로 3D Gaussian 표현을 복원.
- Gaussian LDM: 입력 이미지를 조건으로 사용하여 VAE의 잠재표현 생성.
[역할 및 기여]
ㅇ 프로젝트 주제 선정 및 방법론 설계
ㅇ 프로젝트 모델 학습 및 실험
기타 대외활동
[우수학부연구생 연구학점제]
축구 경기 영상이 비디오 형태로 주어질 때, 오프사이드 여부를 탐지하는 프로젝트 수행
YOLO v7 모델, multi-object traking (MoT)모델 과 다양한 이미지 처리 알고리즘을 활용하여 수행함.
기간 2022. 12. 19. ~ 2023. 01. 25.
자기소개
저는 성균관대학교 전자전기공학부와 소프트웨어학과를 졸업하였으며, 현재 성균관대학교 대학원 전자전기컴퓨터공학과에 재학 중입니다. 연구 분야는 컴퓨터비전이며, 특히 인공지능 모델을 활용한 3D 생성 및 재건에 집중하고 있습니다.
단일 또는 이중 2D X-선 영상으로 3D CT 볼륨을 재건하는 연구와 소수의 2D 물체 이미지로 3D Gaussian 표현을 생성하는 연구를 수행한 경험이 있습니다.
경력경험기술서
[주요논문 연구분야]
3D 데이터는 현실 세계를 보다 정밀하게 표현할 수 있어, 다양한 분야에서 핵심적인 역할을 합니다. 이러한 배경에서 2D 이미지로부터 3D 모델을 재건하거나 생성하는 연구가 활발히 진행되고 있으며, 저는 인공지능 모델을 2차원 영상으로 3차원 영상을 재건 또는 생성하는 연구를 수행해 왔습니다.
단일 또는 이중 2차원 X-선 영상을 3차원 CT로 재건하는 연구를 수행해 ICASSP 2025에 채택되었습니다. 3차원 위치를 반영하는 특징을 추출하는 트랜스포머를 사용해 고품질의 재건을 가능하게 했습니다. 또한, 소수의 2차원 물체 영상을 입력해 대응되는 실시간 렌더링이 가능한 고품질의 3D Gaussian 표현을 생성하는 연구를 수행했습니다.
[프로젝트 수행경험]
저는 "Driving Scene Reconstruction via 3D Gaussian Splatting"을 주제로 한 산학 공동 프로젝트를 수행하였습니다. 본 프로젝트는 단일 2D 이미지로부터 자율주행 환경의 3D 표현을 생성하는 것을 목표로 하였으며, 실시간 렌더링이 가능한 3D Gaussian Splatting과 강력한 생성 능력을 갖춘 Latent Diffusion Model (LDM)을 결합하여 3D Gaussian 표현을 생성하는 모델을 설계했습니다.
모델은 두 단계로 구성됩니다. 1단계 Gaussian VAE: 입력 이미지를 잠재 공간으로 압축한 뒤, 디코더를 통해 3D Gaussian 표현을 재건합니다. 2단계 Gaussian LDM: 입력 이미지를 조건으로 활용하여 Gaussian VAE의 잠재 표현을 생성합니다.
모델을 학습하고 다양한 실험을 통해 생성된 3D Gaussian 표현의 품질을 검증하였습니다.
[기타 대외활동]
우수학부생 연구학점제에서 축구 경기 영상을 입력받아 해당 상황의 오프사이드 여부를 자동으로 탐지하는 프로젝트를 수행했습니다. 이를 위해 YOLO v7 모델과 multi-object tracking (MoT) 및 다양한 이미지 처리 알고리즘을 활용하여 경기장 내의 선수 및 오프사이드 라인을 정확하게 탐지하여 오프사이드 상황을 성공적으로 판별하는 알고리즘을 설계했습니다.