Diffusion Model 작동 원리: 노이즈에서 이미지가 생성되는 수학적 과정 해설

"완전한 노이즈에서 어떻게 사람이 그린 것 같은 이미지가 나올까?" 이 질문의 답은 생각보다 수학적입니다.

Stable Diffusion, Midjourney, DALL·E 같은 이미지 생성 AI를 쓰다 보면 한 번쯤은 이런 생각이 들죠. '이게 대체 무슨 원리로 돌아가는 거지?' 저도 처음에는 그냥 마법처럼 느껴졌어요. 버튼 누르면 그림이 나오고, 프롬프트를 바꾸면 분위기가 바뀌고…

그런데 안쪽을 조금만 들여다보면, 이 모든 과정이 확률과 수식, 그리고 반복적인 노이즈 제거로 설명된다는 걸 알게 됩니다.

이 글은 수학을 전공하지 않아도 이해할 수 있도록, 디퓨전 모델이 어떻게 이미지를 '만들어내는지'가 아니라 어떻게 '되돌려 복원하는지'에 초점을 맞춰 설명하려는 시도예요. 수식은 최소한으로, 대신 개념과 흐름이 머릿속에 그려지도록 풀어보겠습니다.

📋 목차

1. 왜 Diffusion Model이 주류가 되었을까 2. Forward Process: 이미지에 노이즈를 쌓는 과정 3. Reverse Process: 노이즈를 제거하며 복원하기 4. 수식 없이 이해하는 확률적 직관 5. 모델은 무엇을 학습하고 있는가 6. Diffusion의 확장: 영상·오디오·3D

1. 왜 Diffusion Model이 주류가 되었을까

이미지 생성 AI의 역사를 보면, 2014년 GAN(Generative Adversarial Network)이 등장하면서 혁명이 시작됐어요. 생성자와 판별자가 경쟁하며 점점 진짜 같은 이미지를 만들어내는 아이디어는 정말 획기적이었죠.

그런데 GAN에는 고질적인 문제가 있었습니다. 학습이 불안정하고, 모드 붕괴(mode collapse)라고 해서 다양한 이미지를 생성하지 못하고 비슷한 결과만 내놓는 현상이 자주 발생했어요.

GAN vs Diffusion 비교:

• GAN: 생성자-판별자 경쟁 → 학습 불안정, 빠른 생성

• VAE: 잠재 공간 학습 → 흐릿한 결과물 경향

• Diffusion: 점진적 노이즈 제거 → 안정적 학습, 고품질 결과

2020년, DDPM(Denoising Diffusion Probabilistic Models) 논문이 나오면서 상황이 바뀌었습니다. 복잡한 경쟁 구조 없이도 안정적으로 고품질 이미지를 생성할 수 있다는 게 증명됐거든요. 그 후 Stable Diffusion, DALL·E 2, Midjourney가 모두 이 방식을 채택하면서 Diffusion Model이 업계 표준이 되었습니다.

💡 핵심 통찰: Diffusion Model의 성공 비결은 "단순함"입니다. 노이즈를 조금씩 제거하는 것만 학습하면 되니까요. 복잡한 적대적 학습이 필요 없어요.

2. Forward Process: 이미지에 노이즈를 쌓는 과정

Diffusion Model을 이해하려면 먼저 Forward Process(순방향 과정)를 알아야 합니다. 이건 모델이 학습할 때 일어나는 일이에요. 쉽게 말하면, 깨끗한 이미지를 점점 망가뜨리는 과정입니다.

상상해보세요. 선명한 고양이 사진이 있습니다. 여기에 아주 작은 노이즈를 추가해요. 사진이 살짝 흐려집니다. 다시 노이즈를 추가합니다. 조금 더 흐려지죠. 이걸 수백~수천 번 반복하면? 결국 완전히 랜덤한 노이즈만 남게 됩니다.

🎨 원본 이미지 → 살짝 노이즈 → 더 노이즈 → ... → 완전한 노이즈

이 과정은 수학적으로 정의되어 있어요. 각 단계(timestep)에서 얼마나 노이즈를 추가할지가 미리 정해져 있습니다. 보통 1000단계 정도를 거치면 원본 이미지의 정보는 거의 사라지고 순수한 가우시안 노이즈만 남게 됩니다.

📊 노이즈 스케줄(Noise Schedule)

각 단계에서 추가되는 노이즈의 양은 베타(β)라는 값으로 조절됩니다:

• 초반 단계: β가 작음 → 노이즈 조금씩 추가

• 후반 단계: β가 커짐 → 노이즈 빠르게 누적

• 선형(linear), 코사인(cosine) 등 다양한 스케줄 방식 존재

중요한 점은, 이 Forward Process는 학습할 필요가 없다는 거예요. 그냥 수학적 공식에 따라 노이즈를 더하면 됩니다. 모델이 진짜 배워야 하는 건 그 다음 단계입니다.

3. Reverse Process: 노이즈를 제거하며 복원하기

이제 진짜 마법 같은 부분이 나옵니다. Reverse Process(역방향 과정)는 Forward의 정반대예요. 완전한 노이즈에서 시작해서 조금씩 노이즈를 제거하며 이미지를 "복원"해나가는 과정입니다.

🔄 순수 노이즈 → 살짝 형태 → 더 선명 → ... → 완성된 이미지

여기서 핵심 질문이 생깁니다. "노이즈만 있는 상태에서 어떻게 원래 이미지를 알아내지?" 사실, 알 수 없어요. 완전히 똑같은 이미지로 돌아가는 게 아닙니다.

대신 모델은 "이 노이즈 상태에서 가장 그럴듯한 이미지가 뭘까?"를 추정합니다. 수많은 이미지로 학습했기 때문에, 어떤 형태가 자연스러운지 알고 있거든요. 각 단계에서 "여기에 추가됐을 것 같은 노이즈"를 예측해서 빼주는 거예요.

🧠 U-Net: 노이즈 예측 신경망

Reverse Process의 핵심에는 U-Net이라는 신경망 구조가 있습니다. 원래 의료 영상 분할에 쓰이던 구조인데, Diffusion Model에서 노이즈 예측기로 채택됐어요.

• 입력: 현재 노이즈가 낀 이미지 + 현재 timestep 정보

• 출력: 이 단계에서 추가됐을 것으로 예상되는 노이즈

• 작업: 예측된 노이즈를 빼서 한 단계 깨끗한 이미지 생성

4. 수식 없이 이해하는 확률적 직관

Diffusion Model의 이름에 "확률적(Probabilistic)"이라는 말이 붙는 이유가 있어요. 이 모델은 확률 분포를 다루거든요.

쉽게 비유해볼게요. 완전한 노이즈 상태를 "가능한 모든 이미지가 섞여 있는 상태"라고 생각해보세요. 고양이도 될 수 있고, 자동차도 될 수 있고, 풍경도 될 수 있는 가능성의 혼합체요.

확률 분포의 변화:

• t=1000: 완전한 노이즈 → 가능성이 무한히 넓게 퍼짐

• t=500: 대략적 형태 등장 → 가능성이 좁혀짐

• t=0: 선명한 이미지 → 하나의 결과로 수렴

노이즈를 하나씩 제거할 때마다, 가능성의 범위가 점점 좁혀지면서 특정 이미지로 수렴해가는 거예요. 프롬프트(조건)가 여기서 중요한 역할을 합니다. "고양이"라는 조건을 주면, 고양이 방향으로 가능성을 좁혀가게 유도하거든요.

💡 직관적 이해: 같은 노이즈에서 시작해도 시드(seed)나 조건에 따라 다른 이미지가 나오는 이유가 바로 이것. 확률적으로 "선택"되는 경로가 다르기 때문이에요.

5. 모델은 무엇을 학습하고 있는가

학습 과정을 단계별로 정리하면 이렇습니다. 생각보다 단순해요.

단계	과정
1	학습 데이터에서 이미지 하나를 가져온다
2	랜덤하게 timestep t를 선택한다 (예: t=347)
3	t에 해당하는 양의 노이즈 ε를 이미지에 추가한다
4	모델에게 노이즈가 낀 이미지와 t를 보여주고, 추가된 노이즈를 예측하게 한다
5	예측된 노이즈와 실제 노이즈의 차이(손실)를 계산한다
6	손실을 줄이는 방향으로 모델 파라미터를 업데이트한다

핵심 손실 함수는 놀라울 정도로 단순합니다. "내가 예측한 노이즈"와 "실제로 추가한 노이즈"의 차이를 최소화하는 것. 이게 전부예요.

손실 함수 (개념적으로):
Loss = ||ε - ε_predicted||²
(실제 노이즈와 예측 노이즈의 차이의 제곱)

이렇게 수백만 장의 이미지로 학습하면, 모델은 "어떤 노이즈 상태에서든 추가된 노이즈가 뭔지 알아맞히는 능력"을 갖추게 됩니다. 그리고 이 능력이 역으로 이미지를 생성하는 데 사용되는 거예요.

6. Diffusion의 확장: 영상·오디오·3D

Diffusion Model의 원리는 이미지에만 국한되지 않습니다. "노이즈를 추가했다가 제거하며 생성한다"는 프레임워크는 거의 모든 종류의 데이터에 적용될 수 있어요.

🎬 영상 생성: Runway Gen-2/3, Sora, Pika 등이 시간 축을 추가한 Video Diffusion 사용

🎵 오디오 생성: AudioLDM, Riffusion 등이 스펙트로그램 기반 Diffusion 활용

🧊 3D 생성: Point-E, DreamFusion 등이 3D 포인트 클라우드나 NeRF에 Diffusion 적용

🧬 분자 구조: 신약 개발에서 분자 구조 생성에도 Diffusion 연구 진행 중

특히 Latent Diffusion 방식이 중요해요. Stable Diffusion이 이 방식을 씁니다. 픽셀 공간에서 직접 작업하면 계산량이 너무 크니까, VAE로 압축된 잠재 공간(latent space)에서 Diffusion을 수행하는 거예요. 이렇게 하면 효율성이 크게 올라갑니다.

🔮 전망: 2025년 이후에는 멀티모달 Diffusion이 대세가 될 것으로 보입니다. 이미지, 영상, 오디오, 3D를 통합적으로 생성하는 모델들이 등장하고 있어요.

마치며

Diffusion Model의 아이디어는 의외로 간단합니다. "이미지를 서서히 망가뜨리는 과정을 역으로 되돌리는 법을 학습하자." 이게 핵심이에요.

복잡한 수식 뒤에 숨어 있는 직관은 놀라울 정도로 우아합니다. 노이즈만 예측하면 되니까 학습이 안정적이고, 확률적으로 접근하니까 다양한 결과를 만들어낼 수 있어요. GAN이 가졌던 많은 문제들이 자연스럽게 해결됐습니다.

물론 아직 발전의 여지는 많습니다. 생성 속도가 느리다는 단점(수십~수백 단계 반복)을 개선하려는 연구도 활발하고요. 하지만 현재 AI 이미지 생성의 압도적 표준이 된 데는 분명한 이유가 있어요. 이 원리를 이해하고 나면, 앞으로 나올 새로운 기술들도 더 쉽게 파악할 수 있을 겁니다.

#DiffusionModel #디퓨전모델 #AI이미지생성 #StableDiffusion #딥러닝 #생성AI #노이즈제거 #DDPM

Diffusion Model 작동 원리: 노이즈에서 이미지가 생성되는 수학적 과정 해설

Diffusion Model 작동 원리: 노이즈에서 이미지가 생성되는 수학적 과정 해설

📋 목차

1. 왜 Diffusion Model이 주류가 되었을까

2. Forward Process: 이미지에 노이즈를 쌓는 과정

📊 노이즈 스케줄(Noise Schedule)

3. Reverse Process: 노이즈를 제거하며 복원하기

🧠 U-Net: 노이즈 예측 신경망

4. 수식 없이 이해하는 확률적 직관

5. 모델은 무엇을 학습하고 있는가

6. Diffusion의 확장: 영상·오디오·3D

마치며

댓글 쓰기