2단계: 2D 디지털 애니메이션 · 리깅 · 립싱크

이론적 기초 — "왜 이 기술이 존재하는가"

1단계에서 너는 종이와 손으로 애니메이션의 12원칙을 익혔다. 바운싱볼이 땅에 닿을 때 납작해지는 Squash, 튀어오를 때 길쭉해지는 Stretch, 그리고 타이밍과 스페이싱으로 무게감을 만드는 법. 지금 배울 내용은 그 원칙들을 컴퓨터라는 도구와 결합하는 일이다. 원칙이 '무엇을'이라면, 툴은 '어떻게'다. 이 두 가지가 합쳐질 때 비로소 실무에서 쓸 수 있는 애니메이션이 탄생한다.

전통 셀 애니메이션(Traditional Cell Animation)의 시대를 잠깐 상상해보자. 월트 디즈니의 〈백설공주〉(1937)를 만들 때 애니메이터들은 캐릭터 하나의 동작을 위해 수천 장의 셀룰로이드 시트에 직접 그림을 그렸다. 배경 한 장을 바꾸려면 배경팀이 통째로 새 그림을 그려야 했다. 비용은 천문학적이었고, 미세한 수정 하나에도 며칠이 걸렸다. 그러다 1990년대부터 디지털 2D 애니메이션이 등장하면서 판이 완전히 바뀌었다. 컴퓨터는 중간 프레임을 자동으로 보간(interpolate)해줬고, 캐릭터를 마치 인형처럼 조립해두면 뼈대만 움직여도 몸 전체가 따라 움직이는 마법 같은 시스템이 생겨났다. 이것이 바로 **리깅(Rigging)**의 탄생 배경이다.

리깅을 이해하려면 먼저 **계층 구조(Hierarchy)**라는 개념을 머릿속에 새겨야 한다. 생각해봐. 네 팔이 움직일 때 어깨가 먼저 움직이면 팔꿈치도 따라오고, 팔꿈치가 움직이면 손목도 따라온다. 반대로 손목만 따로 움직이더라도 어깨는 영향을 받지 않는다. 즉 상위 구조가 하위 구조를 지배하는 부모-자식(Parent-Child) 관계다. 디지털 리깅은 이 인체의 원리를 그대로 소프트웨어 안에 재현한 것이다. 이 개념이 흐릿하면 이후 내용이 전부 붕 뜨게 되니, 지금 이 순간이 가장 중요한 기초 포인트다.

[노트 기록] 계층 구조(Hierarchy): 부모(Parent) 노드가 움직이면 자식(Child) 노드가 따라 움직인다. 자식이 움직여도 부모는 영향받지 않는다. 예: 허리(Parent) → 가슴 → 어깨 → 팔꿈치 → 손목(Child)

본 내용 I — 2D 디지털 툴

디지털 2D 애니메이션 툴에는 여러 가지가 있는데, 지금 업계에서 가장 널리 쓰이는 것은 크게 세 가지다. 첫 번째는 Toon Boom Harmony로, 〈스파이더맨: 뉴 유니버스〉, 〈릭 앤 모티〉, 〈보잭 홀스맨〉 등 넷플릭스와 할리우드의 주류 시리즈들이 거의 이 툴로 만들어진다. 업계 표준이라는 말은 그냥 하는 말이 아니다. 두 번째는 Adobe Animate로, 웹 애니메이션과 교육용 콘텐츠 시장에서 강세를 보인다. 세 번째는 **Moho(구 Anime Studio)**인데, 리깅 기반 캐릭터 애니메이션에 특화되어 있어 중소 스튜디오와 1인 창작자들이 많이 쓴다. 무료로 쓸 수 있는 OpenToonz는 스튜디오 지브리가 자체 개발에 참여했다는 사실만으로도 클래스가 다른 툴이다. 어떤 툴을 쓰든 핵심 개념—키프레임, 타임라인, 레이어—은 동일하다. 툴은 방언이고, 개념은 언어 자체다.

2D 디지털 애니메이션의 핵심 작동 방식은 **키프레임(Keyframe)과 보간(Interpolation)**이다. 1단계에서 타이밍을 공부할 때 '어느 프레임에 어떤 포즈를 넣느냐'가 운동감을 결정한다고 배웠을 것이다. 디지털에서는 중요한 포즈 두 개만 잡아두면—이것이 키프레임—소프트웨어가 그 사이를 자동으로 채워준다. 이 자동 채우기가 **트위닝(Tweening)**이다. 그런데 이 트위닝이 어떤 수학적 곡선을 따르느냐에 따라 동작이 기계적으로 느껴지기도 하고 생생하게 느껴지기도 한다. 이를 제어하는 것이 **이징 커브(Easing Curve)**다.

[노트 기록] 이징 종류: ① Linear(일정 속도, 기계적) ② Ease In(느리게 시작 → 빨라짐, 가속) ③ Ease Out(빠르게 시작 → 느려짐, 감속) ④ Ease In-Out(부드러운 가속-감속, 자연스러운 움직임). 1단계의 스페이싱 개념이 여기서 커브로 시각화된 것이다. 같은 원리다.

벡터(Vector)와 래스터(Raster)의 차이도 이 단계에서 이해해야 한다. 래스터 이미지는 픽셀(화소)의 집합이라 크게 늘리면 계단 현상이 생긴다. 반면 벡터 이미지는 수학적 공식으로 선과 면을 표현하므로 얼마나 확대해도 선명하다. Toon Boom Harmony와 Adobe Animate는 기본적으로 벡터 기반이다. 디지털 2D 애니메이션에서 벡터가 중요한 이유는 단순히 화질 때문이 아니다. 리깅 시스템 자체가 벡터 오브젝트를 수학적으로 변형(transform)하는 원리로 작동하기 때문이다. 이것이 어떻게 연결되는지는 다음 섹션에서 바로 이어진다.

본 내용 II — 캐릭터 리깅과 본 애니메이션 (가장 중요한 파트)

리깅(Rigging)이라는 단어는 원래 배의 돛줄을 설치하는 것을 뜻한다. 인형에 줄을 달아 조종하는 마리오네트와도 닮아 있다. 디지털 리깅은 캐릭터 그림에 가상의 뼈대(Bone/Skeleton)를 심어서, 뼈대를 움직이면 그림이 자동으로 따라오도록 만드는 기술이다. 예전 전통 애니메이션에서는 팔 동작 하나를 위해 팔 그림을 12장 그렸다면, 리깅 기반에서는 팔 그림 하나를 그려두고 뼈대만 회전시키면 된다. 작업 속도가 혁명적으로 빨라지는 이유가 여기 있다.

리깅의 구조를 구체적으로 보자. 기본 단위는 **본(Bone)**이다. 본은 위치(Position), 회전(Rotation), 크기(Scale)라는 세 가지 속성을 가지며, 이 세 속성의 영어 약자를 합쳐 TRS라고 부른다. 본들이 계층 구조로 연결되면 **스켈레톤(Skeleton)**이 만들어진다. 캐릭터의 경우 보통 척추(Spine)가 최상위 부모 역할을 하고, 거기서 가슴, 어깨, 팔, 손가락 순으로 자식 노드가 뻗어 나간다. 하지도 마찬가지다. 이 구조에서 척추를 움직이면 몸 전체가 따라 움직이고, 손목 본만 회전시키면 손목과 손가락만 움직인다. 네가 아까 [노트 기록]에 적은 그 개념이 실제 소프트웨어에서 작동하는 순간이다.

여기서 애니메이션을 공부하는 사람이라면 반드시 부딪히는 두 가지 방식이 있다. **FK(Forward Kinematics, 순운동학)**와 **IK(Inverse Kinematics, 역운동학)**다. FK는 직관적으로 이해하기 쉽다. 어깨를 돌리면 → 팔꿈치가 따라오고 → 손목이 따라온다. 부모에서 자식 방향으로 제어가 흐른다. 반면 IK는 반대 방향이다. 손 끝(목표 지점)을 먼저 정해두면 소프트웨어가 역산해서 어깨와 팔꿈치 각도를 자동으로 계산한다. 캐릭터가 테이블 위에 손을 짚을 때, 손 위치를 고정하고 몸을 움직여야 하는 상황에서 IK가 없으면 작업이 매우 고통스러워진다. 일반적으로 팔과 다리는 IK, 척추와 목은 FK를 쓰는 것이 업계의 기본 관행이다.

[노트 기록] FK vs IK 요약표:

FK: 부모 → 자식 방향 제어. 자유로운 포즈 연출에 유리. 팔 스윙 등 공중 동작.
IK: 자식(End Effector) 위치를 기준으로 부모를 역산. 발이 바닥에 붙어있어야 할 때, 손이 물체를 잡을 때 필수.

컷아웃(Cutout) 리깅과 데포메이션(Deformation) 리깅의 차이도 짚고 가야 한다. 컷아웃 방식은 캐릭터를 퍼즐처럼 각 부위별로 분리된 그림으로 만들어 조립한다. 〈사우스 파크〉가 대표적인 컷아웃 스타일이다. 빠르게 제작할 수 있지만 관절 부위가 뚝뚝 끊겨 보이는 단점이 있다. 데포메이션 리깅은 한 장의 그림 자체를 구부리고 늘리는 방식으로, 1단계에서 배운 Squash and Stretch 원칙이 그대로 적용된다. Toon Boom Harmony의 강점이 바로 이 데포메이션 리깅에 있다.

본 내용 III — 배경과 레이아웃

레이아웃(Layout)은 영화로 치면 스토리보드가 카메라 앵글과 구도로 구체화되는 단계다. 애니메이션 제작 파이프라인에서 레이아웃 단계는 "카메라가 어디 있고, 배경은 어떤 크기이며, 캐릭터는 어느 위치에서 어느 크기로 등장하는가"를 확정짓는 도면 작업이다. 이것이 없으면 배경 팀과 애니메이션 팀이 각자 따로 작업하다가 나중에 합쳤을 때 캐릭터가 배경에 비해 거인이 되거나 개미가 되는 참사가 벌어진다.

배경의 레이어 구조는 영화의 멀티플레인 카메라(Multiplane Camera) 기법에서 왔다. 월트 디즈니가 1937년에 특허를 낸 이 기법은 배경을 원거리, 중거리, 근거리 여러 층으로 나눠 각각 다른 속도로 움직여 깊이감(Depth of Field)을 만든다. 창밖으로 빠르게 지나가는 가로수(근경)와 느리게 흐르는 산(원경)의 속도 차이, 기억하지? 이것이 시차(Parallax) 효과다. 디지털에서는 레이어를 여러 층으로 나눠 카메라 이동 속도를 각각 다르게 주면 이 효과를 재현할 수 있다.

배경의 색과 분위기는 단순한 장식이 아니다. 색 심리학(Color Psychology)과 색 이론(Color Theory)의 관점에서, 배경의 채도와 명도는 관객이 캐릭터에게 집중하도록 유도하는 시각적 위계(Visual Hierarchy)를 만든다. 보통 캐릭터는 배경보다 채도가 높고 명도 대비가 강하게 설정된다. 배경이 캐릭터보다 더 화려하면 관객의 시선이 분산된다. 이 원칙은 스튜디오 지브리 작품에서 특히 정교하게 적용된다. 〈하울의 움직이는 성〉의 배경을 떠올려보면, 배경이 압도적으로 아름답지만 하울과 소피가 등장하는 순간 시선이 반드시 그들에게 향한다.

본 내용 IV — 립싱크와 표정 애니메이션 (테크니컬 파트)

립싱크(Lip Sync)는 "말하는 것처럼 보이게 만드는 기술"이지만, 실제로 구현하는 방식은 꽤 체계적인 언어학과 음성학의 응용이다. 사람이 말할 때 입 모양은 음소(Phoneme)에 따라 결정된다. 음소란 언어에서 의미를 구분하는 가장 작은 소리 단위로, 예를 들어 'ㅏ', 'ㅡ', 'ㅂ', 'ㅁ' 등이 각각 다른 음소다. 애니메이션에서는 모든 음소를 다 그릴 수 없으니 시각적으로 구분 가능한 입 모양끼리 묶어서 마우스 셰이프(Mouth Shape) 세트를 만든다.

업계에서 가장 오래 쓰인 기준은 프레스턴 블레어(Preston Blair)의 입 모양 차트다. 그의 책 Animation: Learn How to Draw Animated Cartoons(1949)에서 제안된 이 시스템은 약 7~10개의 기본 입 모양으로 영어의 거의 모든 소리를 커버한다. 핵심 셰이프는 다음과 같다: 입을 닫은 상태(M, B, P 계열), 입을 크게 벌린 상태(A, I), 앞으로 모은 상태(O, U), 이를 드러낸 상태(E), 그리고 혀 끝이 보이는 상태(L, TH, D). 한국어는 영어와 음소 체계가 다르므로 한국어 립싱크를 할 때는 받침이 있는 음절(예: '안녕'의 'ㅇ' 받침)과 모음 연결 방식을 추가로 고려해야 한다.

[노트 기록] 립싱크 기본 마우스 셰이프 7종: ① Closed(M/B/P) ② Open/A ③ E ④ O/U ⑤ F/V(윗니-아랫입술) ⑥ L/TH(혀 보임) ⑦ Rest(중립 상태). 이 7개를 조합해 모든 발화를 표현한다.

립싱크를 소프트웨어에서 실제로 작업할 때는 두 가지 방법이 있다. 첫 번째는 수동 립싱크로, 오디오 파형을 타임라인에 깔고 특정 음소가 들리는 프레임에 해당 입 모양 셰이프를 수작업으로 배치하는 방식이다. 섬세하지만 시간이 많이 걸린다. 두 번째는 자동 립싱크로, Toon Boom Harmony의 Lip Sync Detection 기능이나 Adobe Character Animator 같은 도구를 쓰면 AI가 오디오를 분석해서 자동으로 셰이프를 할당해준다. 정확도가 약 70~80% 수준이라 수동 수정이 여전히 필요하지만 초안 잡는 속도가 비교할 수 없이 빠르다.

표정 애니메이션은 립싱크보다 훨씬 복잡한 감정 연기의 영역이다. 폴 에크만(Paul Ekman)의 연구(Emotions Revealed, 2003)에 의하면 인간의 기본 감정은 행복, 슬픔, 분노, 두려움, 혐오, 놀람 6가지로 분류되며, 이 감정들은 문화를 초월해 보편적인 얼굴 근육 움직임(FACS, Facial Action Coding System)으로 표현된다. 애니메이션에서 표정을 설득력 있게 만들려면 눈, 눈썹, 입의 세 영역이 감정에 맞게 유기적으로 연동되어야 한다. 예를 들어 슬픔을 표현할 때 입만 내리면 어색하다. 눈썹 안쪽이 올라가고, 눈이 반쯤 감기고, 입 꼬리가 내려가는 세 가지가 동시에 일어나야 비로소 설득력 있는 슬픔이 된다. 여기에 1단계에서 배운 Anticipation(예비 동작) 원칙을 적용하면 — 울기 직전에 입술이 잠깐 떨리거나 눈이 크게 열렸다가 반쯤 감기는 선행 동작을 넣으면 — 관객이 감정 변화를 훨씬 강하게 느낀다.

프로젝트 — 정답 없는 문제들 (총 40분 분량)

아래 세 프로젝트는 순서대로 진행해야 한다. 각 프로젝트는 독립적이지 않고 앞 프로젝트의 결과물이 다음 프로젝트의 입력으로 이어진다. 소프트웨어는 네가 쓸 수 있는 것 아무거나 써도 된다. 그림 실력이 목표가 아니라 구조와 원리를 손으로 이해하는 것이 목표다. 막대인간으로 해도 충분하다.

Project A — 캐릭터 리깅 설계 (10분)

종이 위에 혹은 디지털 툴에서 단순한 캐릭터(두 팔, 두 다리, 머리, 몸통이 있는 어떤 것이든)를 그리거나 만들어라. 그 다음, 이 캐릭터에 본 구조를 설계하라. 뼈대가 총 몇 개 필요한지, 각 본의 부모-자식 관계는 어떻게 설정할 것인지, 그리고 어느 관절에 IK를 쓰고 어느 관절에 FK를 쓸 것인지 결정하고 이유를 한 문장씩 적어라. 예를 들어 "무릎에 IK를 쓴다, 왜냐하면 발이 바닥에 붙어 있어야 하기 때문이다" 같은 식으로. 뼈대 구조도를 직접 그리고 각 본에 이름을 붙여라.

Project B — 걷기 사이클 타임라인 설계 (15분)

Project A에서 리깅한 캐릭터를 기준으로, **8프레임(또는 12프레임) 걷기 사이클(Walk Cycle)**의 키포즈를 설계하라. 실제로 소프트웨어에서 애니메이션을 만들어도 되고, 타임라인 다이어그램으로 종이에 그려도 된다. 반드시 포함해야 할 포즈는 Contact Position(발이 땅에 닿는 순간), Down Position(몸이 가장 낮은 순간), Passing Position(한 발이 다른 발을 지나가는 순간), Up Position(몸이 가장 높은 순간)이다. 각 포즈가 몇 번째 프레임에 위치해야 하는지, 그리고 왜 그 타이밍인지를 설명하라. 1단계에서 배운 타이밍과 스페이싱 원칙을 이 걷기 사이클에 어떻게 적용했는지 한 문단으로 설명하라.

Project C — 립싱크 타임라인 매핑 (15분)

아래 한국어 문장을 소리 내어 천천히 읽으면서, 각 음절이 발음될 때 입 모양이 어떻게 변하는지 거울을 보며 관찰하라. "나는 오늘 정말 행복해." 이 문장을 1초에 약 3~4음절 속도(자연스러운 대화 속도)로 발화할 때, 초당 24프레임을 기준으로 타임라인을 설계하라. 각 프레임(또는 2프레임 단위)에 어떤 마우스 셰이프가 들어가야 하는지 표로 정리하고, 전체 발화가 몇 프레임에 걸쳐 일어나는지 계산하라. 그 다음, 이 문장을 말하는 캐릭터의 감정이 '매우 행복한 상태'라면 입 모양 외에 눈썹, 눈, 볼 등 얼굴의 다른 부위가 어떻게 변해야 하는지 그림 또는 설명으로 제안하라. 폴 에크만의 행복 표정 연구를 참고하되, 만화적 과장(Exaggeration — 1단계의 12원칙 중 하나)을 어느 정도 적용할 것인지도 결정하라.

세 프로젝트를 마쳤다면, 스스로에게 이 질문을 던져봐라. "나는 리깅 없이도 이 애니메이션을 만들 수 있었을까? 리깅이 있었기에 할 수 있었던 것은 무엇이고, 리깅이 오히려 제약이 된 것은 무엇인가?" 이 질문에 대한 답이 뚜렷하게 나온다면, 2단계의 핵심을 제대로 이해한 것이다.

애니메이션테크닉