사운드 테크닉 3단계: 마스터링 · 사운드 디자인 · 영상 음향

1부. 배경지식 — 왜 마스터링이 존재하는가

2단계에서 너는 믹싱을 배웠다. 밸런스를 잡고, EQ로 주파수를 조각하고, 컴프레서로 다이내믹을 다듬고, 리버브와 딜레이로 공간을 설계했다. 그런데 여기서 잠깐 멈추고 하나의 질문을 스스로 던져봐. "내가 완성한 믹스를 스트리밍 서비스에 올리면 어떤 일이 벌어질까?" 다른 아티스트의 곡들과 나란히 재생될 때, 내 곡만 유독 작게 들리거나, 너무 시끄럽거나, 아이폰 스피커에서는 뭉개지고 스튜디오 모니터에서는 멀쩡하게 들리는 상황이 생긴다. 마스터링은 바로 이 문제를 해결하기 위해 탄생한 마지막 공정이다.

역사적으로 마스터링은 LP 레코드를 찍어내던 시대에 시작됐다. 물리적인 바이닐 디스크에 홈을 파는 '래커 커팅(lacquer cutting)' 작업을 위해 믹스 파일을 물리적 한계에 맞게 최적화해야 했고, 이 과정을 담당하던 기술자들이 마스터링 엔지니어의 원형이다. 디지털 시대로 넘어오면서 바이닐의 물리적 제약은 사라졌지만, 대신 수십 개의 플랫폼마다 제각각 다른 라우드니스 기준(loudness standard) 이라는 새로운 제약이 생겼다. Spotify, Apple Music, YouTube는 모두 서로 다른 기준으로 음악의 볼륨을 자동으로 조절한다. 마스터링을 모르면 네 곡은 플랫폼 알고리즘 앞에서 제멋대로 찌그러진다.

[노트 기록] 마스터링이란: 믹싱이 완료된 스테레오(또는 멀티채널) 파일을 최종 배포 형태에 맞게 최적화하는 과정. 주요 목표는 ①플랫폼 라우드니스 기준 충족, ②재생 환경 범용성 확보, ③앨범/콘텐츠 내 트랙 간 일관성 유지.

2부. 마스터링의 원리와 도구

라우드니스(Loudness)란 무엇인가

1단계에서 소리의 진폭(amplitude)이 데시벨(dB)로 측정된다는 걸 배웠다. 그런데 인간의 귀는 주파수마다 감도가 다르다. 같은 dBSPL이라도 1kHz의 소리가 100Hz의 소리보다 훨씬 크게 들린다. 이 차이를 반영하여 실제 지각되는 크기를 수치화한 단위가 LUFS(Loudness Units relative to Full Scale) 다. ITU-R BS.1770이라는 국제 표준 알고리즘이 인간의 청각 특성을 수학적으로 모델링해서 이 값을 계산한다.

스트리밍 플랫폼별 기준을 보면, Spotify는 -14 LUFS, Apple Music은 -16 LUFS, YouTube는 -14 LUFS 를 기본 타겟으로 사용한다. 이 수치보다 크게 마스터링된 파일은 플랫폼이 자동으로 볼륨을 낮춰버린다—이걸 라우드니스 노멀라이제이션(loudness normalization) 이라 한다. 반대로 너무 작으면 다른 곡 옆에서 초라하게 들린다. 따라서 마스터링의 첫 번째 임무는 이 타겟 LUFS에 정확히 도달하는 것이다.

여기서 한 가지 더 알아야 할 개념이 True Peak다. 디지털 신호를 아날로그로 변환할 때(D/A 컨버터) 샘플 사이에서 실제 파형이 클리핑 레벨을 초과하는 현상이 발생할 수 있다. 이를 Inter-Sample Peak(ISP)라 부르며, True Peak 측정은 이 현상을 감지한다. 업계 표준은 True Peak를 -1.0 dBTP 이하로 유지하는 것이다.

[노트 기록] 핵심 수치 암기표:

타겟 라우드니스: -14 LUFS (Spotify/YouTube), -16 LUFS (Apple Music)
True Peak 최대: -1.0 dBTP
단위 관계: LUFS ≒ LKFS (실질적으로 동일한 측정값)

다이내믹 레인지와 마스터링의 역설

다이내믹 레인지(Dynamic Range) 는 가장 조용한 순간과 가장 시끄러운 순간의 차이다. 클래식 오케스트라 녹음은 70dB 이상의 다이내믹 레인지를 가지는 반면, 현대 상업 팝 음악은 6~8dB밖에 안 되는 경우가 많다. 2단계에서 배운 컴프레서가 이 레인지를 줄이는 도구였다면, 마스터링에서는 멀티밴드 컴프레서(Multiband Compressor) 와 리미터(Limiter) 가 그 역할을 완성한다.

리미터는 컴프레서의 극단적 형태로, 설정한 임계값(threshold) 위의 모든 신호를 물리적으로 차단한다. 마스터링 체인의 맨 마지막에 위치해 True Peak를 통제한다. 그런데 여기서 '라우드니스 워(Loudness War)'라는 역사적 사건을 알 필요가 있다. 1990년대부터 2010년대 초반까지, CD 시대의 상업 음악 제작자들은 "더 크게 들리면 더 팔린다"는 믿음으로 리미터를 극단적으로 밀어붙여 다이내믹 레인지를 0에 가깝게 압착시켰다. Metallica의 Death Magnetic (2008)은 다이내믹 레인지가 거의 없어서 Guitar Hero 게임 버전이 원본 CD보다 음질이 좋다는 악명으로 유명해졌다. 라우드니스 노멀라이제이션이 보편화된 현재는 이 전쟁이 의미 없어졌고, 오히려 다이내믹 레인지를 살려야 유리하다.

마스터링 EQ와 스테레오 이미지

마스터링에서 EQ는 믹싱 EQ와 전혀 다른 철학으로 접근한다. 믹싱 EQ가 개별 트랙을 수술한다면, 마스터링 EQ는 완성된 전체 믹스를 0.5~1dB 단위의 미세한 조정으로 다듬는다. 주로 하이패스 필터로 필요 없는 초저역을 정리하고, 에어(air) 주파수(16kHz 이상)를 미세하게 올려 선명함을 더하는 방식이 일반적이다.

스테레오 이미징(Stereo Imaging) 은 마스터링에서만 다루는 고급 개념이다. M/S(Mid/Side) 처리 방식은 스테레오 파일을 '모노 정보(Mid)'와 '사이드 정보(Side)'로 분리해 각각 독립적으로 처리한다. 킥드럼, 베이스, 보컬 같은 중앙 요소는 Mid에 집중되고, 패닝된 기타나 리버브 테일은 Side에 존재한다. Side를 올리면 더 넓은 공간감이 생기지만 과하면 모노 호환성이 깨진다—스마트폰 스피커 하나로 들을 때 Side 정보가 위상 상쇄(phase cancellation)로 사라져버리는 현상이 생긴다.

[노트 기록] 마스터링 체인의 기본 순서: EQ(저역 정리) → 멀티밴드 컴프 → 스테레오 이미저 → EQ(고역 조정) → 리미터(True Peak 통제)

3부. 사운드 디자인 — 폴리와 효과음

폴리(Foley)란 무엇인가

영화관에서 주인공이 빗속을 걷는 장면을 본다고 상상해봐. 그 발소리, 옷 스치는 소리, 빗소리—이 중 상당수는 촬영 현장에서 녹음된 것이 아니다. 폴리(Foley) 는 영상과 동기화하여 사운드 스튜디오에서 사후 녹음(ADR처럼)으로 제작하는 현장음 재창조 기술이다. 이 이름은 1930년대 유니버설 픽처스의 사운드 아티스트 Jack Foley에서 유래했다.

폴리가 왜 필요할까? 현장 마이크는 대화(dialogue)를 잡기 위해 배우 위에 붐 마이크를 최적화하는데, 이 과정에서 미묘한 움직임 소리들은 불충분하게 녹음되거나 촬영 소음(카메라 모터, 스태프 이동)과 섞인다. 폴리 아티스트는 다양한 소품—나무판, 자갈, 가죽, 셀로판지—을 이용해 발소리(Footsteps), 옷 스치는 소리(Cloth/Moves), 소품 소리(Specifics)를 재창조한다. 프로 폴리 녹음실에는 다양한 바닥재(콘크리트, 나무, 자갈, 카펫)가 실제로 깔려 있다.

흥미로운 사실 하나: 영화 Indiana Jones의 채찍 소리는 실제 채찍이 아니라 가죽 코트 소매를 휘두르는 소리다. Star Wars 광선검 소리는 영화 프로젝터 모터와 TV 간섭 노이즈를 합성한 것이다. 이처럼 사운드 디자인에서 '현실'은 창의적 재구성의 재료일 뿐이다.

효과음(SFX) 디자인의 레이어링

폴리가 현실 모방이라면, 사운드 이펙트 디자인(Sound Effect Design) 은 현실에 없는 소리를 설득력 있게 만들어내는 작업이다. 총소리, 폭발음, 외계인 무기 소리 같은 것들이 대표적이다.

현대 SFX 디자인의 핵심 개념은 레이어링(Layering) 이다. 단 하나의 녹음 파일이 완성된 효과음이 되는 경우는 거의 없다. 권총 한 발의 소리만 해도 ①화약 폭발의 저역 충격음(sub rumble), ②날카로운 트랜지언트(metallic crack), ③총신 공명음(body resonance), ④공간 반향(room tail)—이렇게 여러 레이어가 합쳐진다. 각 레이어는 독립적인 파일로 녹음되거나 합성(synthesis)으로 만들어진 후 DAW에서 조합된다.

피치 시프팅(Pitch Shifting) 과 타임 스트레칭(Time Stretching) 은 사운드 디자이너의 핵심 무기다. 일반 자동차 문 닫히는 소리를 피치를 낮추고 리버브를 길게 늘리면 거대한 요새의 철문 소리가 된다. 고양이 울음소리를 피치 시프트하면 괴물의 포효처럼 변한다. 이러한 변형 기법을 Pitch Manipulation을 통한 사운드 트랜스포메이션(Sound Transformation) 이라 한다.

[노트 기록] SFX 제작 단계: ①소스 소재 선정(필드 녹음/라이브러리/합성) → ②레이어 분리 및 개별 편집 → ③피치/타임 조작 → ④레이어 믹싱 → ⑤영상에 싱크 배치

4부. 영상 음향 설계 — 다이얼로그와 앰비언스

영상 음향의 세 축

영화, 드라마, 유튜브 영상의 사운드트랙은 크게 세 가지로 구성된다: 다이얼로그(Dialog), 앰비언스(Ambience/Atmos), 효과음(SFX). 여기에 음악(Music)이 더해지면 완전한 사운드 레이어가 완성된다. 이것을 이해하는 가장 좋은 방법은 영화 한 장면의 소리를 레이어별로 머릿속에서 분해해보는 것이다.

다이얼로그(Dialog) 는 영상 음향의 왕이다. 모든 다른 요소는 다이얼로그의 명료성을 보조하기 위해 존재한다. 다이얼로그 편집에서 핵심 개념은 다이얼로그 클리닝(Dialog Cleaning) 이다. 현장 녹음에는 에어컨 소음, 차 소리, 옷 스치는 소리가 섞여있다. 이를 Noise Reduction 플러그인(iZotope RX가 업계 표준)으로 제거하되, 과도한 처리로 부자연스러운 '빈 공간'이 생기지 않도록 주의해야 한다. 또한 다이얼로그는 항상 EQ로 300Hz 이하를 하이패스하여 지저분한 저역을 정리하고, 컴프레서로 다이내믹을 일정하게 만든다.

앰비언스(Ambience) 는 영상의 공간적 진실성을 담당한다. 우리가 조용한 도서관에 있을 때도, 실제로는 에어컨 소리, 사람들의 미세한 숨소리, 멀리서 차 지나가는 소리가 존재한다. 영상에서 이 소리가 없으면 관객은 무의식적으로 '이상함'을 느낀다. 더 중요한 것은 롬 톤(Room Tone) 이다. 현장 촬영 시 스태프들은 대화 녹음 후 반드시 30초~1분간 아무 소리도 내지 않고 현장의 '침묵'을 녹음한다—이게 롬 톤이다. 편집에서 다이얼로그 클립 사이의 빈 공간에 이 롬 톤을 깔아야 자연스러운 연결이 된다.

앰비언스 베드(Ambience Bed) 는 장면 전체에 깔리는 환경음이다. 숲 속 장면이라면 새소리, 바람소리, 나뭇잎 소리가 레이어로 쌓인다. 도시 장면이라면 차 소음, 사람들 웅성거림(Walla라 부른다), 경적 소리가 포함된다. 앰비언스 디자인의 핵심은 이 소리들이 의식되지 않아야 한다는 것이다. 관객이 "앗, 이 장면 앰비언스 정말 좋다"고 느끼는 순간, 사실 이미 앰비언스는 실패한 것이다. 최고의 앰비언스는 그 영상이 '실제'라고 믿게 만드는 보이지 않는 기반이다.

영상 음향의 싱크(Sync)

싱크(Synchronization) 는 영상과 소리가 일치하는 것을 말한다. 마스터링처럼 정확한 수치 작업이 아니라, 이것은 감각과 논리의 결합이다. 총소리는 총구에서 연기가 피어오르는 프레임에 정확히 맞아야 한다. 발소리는 발바닥이 땅에 닿는 순간과 일치해야 한다. 그런데 여기서 **청각의 지연(Auditory Lag)**이라는 개념이 중요하다. 우리 뇌는 시각보다 청각 처리가 약 20~30ms 느리다는 연구가 있어서, 실제로 영상보다 소리를 약간 앞당겨 배치해야 싱크가 맞는 것처럼 느껴지는 경우도 있다. 이 미세한 조정은 경험을 통해 터득하는 감각적 영역이다.

[노트 기록] 영상 음향 레이어 구조:

L1 다이얼로그: 명료성 최우선, 하이패스 EQ + 컴프
L2 앰비언스 베드: 공간 진실성, 롬 톤으로 빈 공간 채움
L3 SFX: 폴리 포함, 영상 싱크 정확도
L4 뮤직: 감정 지원, 다이얼로그 마스킹 최소화

5부. 기술적 심화 — 전문가 레벨

라우드니스 측정 알고리즘: ITU-R BS.1770

LUFS를 측정하는 알고리즘 내부를 들여다보면 두 단계 필터링이 있다. 첫 번째는 K-weighting 이라 불리는 고역 강조 필터(pre-filter)로, 고주파에 민감한 인간 청각의 주파수 응답 커브를 모사한다. 두 번째는 실제 라우드니스 측정을 단기(Short-term: 3초 게이팅), 통합(Integrated: 전체 파일 평균), 모멘터리(Momentary: 400ms 순간값) 세 가지 시간 창으로 나누어 측정한다. 마스터링에서 우리가 타겟으로 삼는 -14 LUFS는 통합 라우드니스(Integrated Loudness) 값이다. 이 개념을 이해하면 왜 4분짜리 곡과 30초짜리 인트로의 LUFS 타겟이 동일한 원리로 적용되는지 알 수 있다.

True Peak와 재구성 오버로드

디지털 음성 파일은 이산적인 샘플(sample)의 연속이다. D/A 변환 과정에서 신호 처리 이론에 의해 샘플 사이의 연속 파형이 재구성(reconstruction)되는데, 이 재구성 과정에서 원본 샘플값보다 높은 피크가 발생할 수 있다—재구성 오버로드(Reconstruction Overshoot) 혹은 Inter-Sample Peak(ISP) 라 한다. 통상 PCM 파일에서 -0.5 dBFS의 샘플 피크도 실제 아날로그 출력에서는 0 dBFS를 넘길 수 있다. 이를 방지하기 위해 True Peak 리미팅을 -1.0 dBTP 이하로 설정하는 것이다. 현대 리미터 플러그인들은 대부분 True Peak 모드를 내장하고 있다.

M/S 처리와 위상(Phase)

M/S 인코딩의 수학적 원리는 다음과 같다: Mid = (L + R) / 2, Side = (L - R) / 2. 이것을 모노 호환성과 연결하면—모노로 다운믹스될 때 L + R만 합산되므로, Side 정보(L - R)는 상쇄되어 사라진다. 따라서 Side에만 존재하는 요소는 모노에서 들리지 않는다. Correlation Meter는 스테레오 신호의 위상 상관도를 +1(완전 모노)에서 -1(완전 위상 반전)로 표시하는데, 마스터링에서 이 값이 지속적으로 0 이하로 떨어진다면 모노 호환성에 문제가 있다는 신호다.

6부. 프로젝트 — 문제만 있는 실전 예제

지금까지 이론을 충분히 쌓았다. 이제 스스로 부딪혀볼 차례다. 아래 문제들은 정답이 없다. 틀릴 것을 두려워하지 말고, 직접 DAW를 열고 귀와 눈으로 판단하면서 진행해봐.

[프로젝트 A] 마스터링 실전 (약 15분)

너는 2단계에서 완성했거나, 혹은 인터넷에서 무료로 받을 수 있는 멀티트랙 믹스 파일(Splice, Cambridge MT 등에서 무료 제공)의 스테레오 믹스 파일을 받아라. DAW에 불러온 후, 다음 작업을 순서대로 진행하되 각 단계마다 A/B 비교(바이패스 토글)를 반드시 해야 한다.

[문제 1] 로우 컷 EQ를 적용하기 전, 스펙트럼 분석기(Spectrum Analyzer)로 이 믹스의 저역 에너지가 어느 주파수 대역에 집중되어 있는지 관찰하라. 60Hz 이하에 에너지가 얼마나 있는가? 그 에너지가 음악적으로 의미 있는 정보인지, 아니면 불필요한 DC offset이나 저역 노이즈인지 어떻게 판단할 것인가?

[문제 2] 라우드니스 미터(LUFS 미터)로 현재 이 믹스의 통합 라우드니스를 측정하라. Spotify 기준인 -14 LUFS에 도달하기 위해 리미터의 Threshold를 어떻게 조정해야 하는가? 그리고 리미터를 강하게 누를수록 어떤 음질 변화가 느껴지는지, 특히 트랜지언트(드럼 어택)에 어떤 영향이 있는지 귀로 확인하고 노트에 기록하라.

[문제 3] Correlation Meter를 켜고 믹스를 재생하라. 값이 0.5 이하로 내려가는 순간이 있는가? 있다면 어떤 악기/파트가 재생될 때인지 특정하고, 이것이 모노 스피커 환경에서 어떻게 들릴지 예측해보라. 실제로 DAW의 모노 버튼을 눌러서 예측과 결과를 비교하라.

[프로젝트 B] 폴리 및 SFX 제작 (약 15분)

이 프로젝트는 DAW와 마이크(혹은 스마트폰 녹음 앱), 그리고 집 안에 있는 잡다한 소품들만 있으면 된다.

[문제 4] 아래 세 가지 '가상의 장면'을 위한 폴리 소리를 각각 집 안의 소품으로 만들어라. 무엇을 사용했는지 노트에 기록하고, 왜 그 소재를 선택했는지 음향적 근거(음색, 주파수 특성)로 설명해봐.

장면 ①: 중세 기사가 돌계단을 올라가는 발소리
장면 ②: 거대한 도서관의 묵직한 나무 문이 천천히 닫히는 소리
장면 ③: 비 오는 날 창문에 빗방울이 맺히는 소리

[문제 5] 녹음한 폴리 소재 중 하나를 DAW에서 피치 시프팅(+12 semitone 혹은 -12 semitone)과 리버브를 조합하여 완전히 다른 효과음으로 변환하라. 원본 소재와 변환된 결과물이 어떻게 다른지, 그리고 이 변환된 소리가 어떤 영상 장면에 어울릴지 상상해서 기록하라.

[프로젝트 C] 단편 영상 음향 설계 (약 15분)

스마트폰으로 아래 중 하나의 짧은 영상(30초~1분)을 직접 촬영하거나, YouTube에서 Creative Commons 영상을 찾아라.

[문제 6] 영상을 DAW로 불러온 후, 모든 원본 오디오를 뮤트하고 다음 레이어를 처음부터 다시 구성하라. 각 레이어를 구성할 때 어떤 소리를 선택했는지, 그리고 각 레이어의 볼륨 밸런스를 어떻게 결정했는지 근거를 서술하라.

앰비언스 베드 (1~2가지 소리)
주요 SFX 또는 폴리 (최소 2개 이상)
다이얼로그 (있다면) — EQ와 컴프를 적용하고 처리 전후를 비교하라

[문제 7] 완성된 영상 음향 전체의 LUFS를 측정하라. 영화/방송 표준인 -23 LUFS (EBU R128) 와 현재 수치의 차이는 얼마인가? 이 차이를 어떤 방식으로 조정할 것인지 기술하라. (힌트: 마스터 볼륨 조정 vs. 개별 트랙 볼륨 재조정의 차이를 생각해봐)

마지막으로 스스로에게 물어봐. 이론에서 가장 어렵게 느껴졌던 개념 하나를 골라라. 그것이 프로젝트를 진행하는 중에 어떤 형태로 다시 나타났는가? 이론과 실전 사이의 간극에서 네가 직접 발견한 것—그것이 이 단계를 통과하는 진짜 학습이다.

사운드테크닉