산학프로젝트 / 현장실습ᆞ인턴십
Driving Scene Reconstruction via 3D Gaussian Splatting
- 업체명
- MIDAS 연구원
- 기간
- 2024. 08. 15 ~ 2025. 02. 28
ㅇ Latent Diffusion 기반 3D Gaussian Splatting 프레임워크 제안
- 직접 3D Gaussian 파라미터를 예측하는 대신, VAE로 latent 공간에 압축 후 Diffusion으로 복원하는 2단계 방식을 설계.
ㅇ 자율주행 장면 재구성을 위한 성능 검증
- ShapeNet-SRN(Car) 데이터셋으로 단일 이미지만으로 3D 모델을 재구성
- Gaussian LDM을 사용함으로써, 기존 단일 VAE 구조인 모델보다 성능 향상
교육수료
AI·백엔드·클라우드 등 실무 중심 소프트웨어 개발을 배우는 Krafton Jungle(크래프톤 개발자 양성 부트캠프) 수료
기간 2022.10~2023.3
기타 대외활동
[수상경력]
YoloV4 유체 감지를 활용한 자동 주입 제어 웹 서비스를 제작하여, 2022 창의혁신 DNA 산학협력 연구 프로젝트에서 공학혁신상 수상함
기간 2022-05-11
2022 창의혁신 DNA 산학협력 연구 프로젝트에서 딥러닝 기반 수액 원격 관리 시스템을 직접 설계·개발하였습니다. YOLOv2 Detection 모델을 활용해 수액 감지 및 Count 기능을 구현하고, 픽셀 기반 기준선을 추가하여 정확도를 13% 개선했습니다. 또한 라즈베리파이 영상 데이터를 MariaDB로 적재하는 데이터 파이프라인을 구축하고, 단일 서버에서 운영되던 시스템을 AWS EC2·RDS 기반으로 분산시켜 안정적인 서비스 환경을 구현하여 공학혁신상을 수상할 수 있었습니다.
자기소개
SF 소설을 좋아하던 저는 딥러닝 인문학 교양 수업에서 테드 창 저자의 소프트웨어 객체의 생애주기를 읽게 되면서 소설 속 그려진 가상현실과 소통이 가능한 AI에 크게 매료되었습니다. 이를 기점으로 사람과 AI가 친화적인 가상현실을 직접 개발해야겠다는 꿈이 생겼고, 개발 역량을 끌어올리기 위해 쉼 없이 AI 연구 및 개발 전반에 도전해왔습니다.
자율주행 경진대회와 산학과제를 통해 실차 데이터를 기반으로 한 환경 인식 및 객체 검출 알고리즘 개발을 수행하며 문제 해결 경험을 쌓았습니다. 또한, CoTracker와 Diffusion 기반의 영상 생성 연구를 통해 영상 예측과 객체 추적을 결합한 새로운 접근 방식을 제안하며, PSNR·SSIM·LPIPS·FVD 등 다양한 비디오 품질 지표를 활용해 성능을 검증한 경험이 있습니다.
경력경험기술서
[주요논문 연구분야]
주요 연구 분야는 Point Track 기반의 Video Prediction으로, 과거 영상에서 추출된 다수의 포인트 궤적을 활용하여 미래 영상을 생성하는 방법을 탐구했습니다.
기존 diffusion 기반 Video Prediction은 appearance 정보에만 의존해 장기 예측 시 오류 누적과 motion collapse 문제가 발생하는 한계가 있었고, 이를 해결하기 위해 Point Tracking 기반 명시적 motion trajectory를 조건으로 활용하는 새로운 예측 프레임워크를 제안했습니다.
GRU와 Neural ODE 기반 regression 모델을 통해 명시적인 미래 motion cue를 생성하고, Patch-Point Aware Cross Attention을 도입해 motion feature와 video feature 간 공간적 연관성을 학습시킴으로써, diffusion 모델이 더욱 안정적이고 사실적인 미래 프레임을 생성할 수 있도록 했습니다.
이러한 접근은 temporal fidelity와 장기적 일관성을 크게 향상시켜 기존 appearance-only 기반 방법론의 한계를 극복했습니다.
[프로젝트 수행경험]
저는 “Driving Scene Reconstruction via 3D Gaussian Splatting” 산학협력 프로젝트를 수행하며 자율주행 장면 재구성을 위한 3DGS 기반 파이프라인을 구축을 담당했습니다.
Gaussian VAE를 설계·학습시켜 3D Gaussian 파라미터를 잠재 공간으로 인코딩하고, Latent Diffusion Model(LDM)을 결합하여 일반화 가능한 장면 복원 프레임워크를 만들었습니다. 또한 ShapeNet-SRN 차량 데이터를 활용해 단일 이미지 입력만으로 3D 장면을 재구성할 수 있는 시스템을 개발하였고, PSNR·SSIM·LPIPS 지표를 통해 성능을 검증했습니다.
실험 과정에서는 데이터셋 구축, 모델 설계, GPU 학습 환경 구성을 직접 담당하며 연구 전반을 이끌었습니다. 그 결과, 다양한 주행 장면을 다룰 수 있는 확장성 있는 3D 재구성 시스템을 완성하였습니다