3단계: 교육 평가와 교육과정 설계 — 학교는 무엇을 측정하고, 어떻게 배움을 설계하는가

이론적 배경: "우리는 배움이 일어났는지 어떻게 아는가"

먼저 배경을 잡자. 1단계에서 너는 교육철학과 학습이론을 배웠다. 행동주의는 자극과 반응의 관계로 학습을 설명했고, 인지주의는 정보처리 과정을, 사회적 구성주의는 상호작용을 통한 의미 구성을 강조했다. 2단계에서는 그 이론들을 실제 수업 설계(ADDIE, SAM)에 녹여냈고, 블룸 분류학을 통해 학습 목표를 기억→이해→적용→분석→평가→창조의 위계로 구조화했다. 이제 3단계는 그 논리의 자연스러운 다음 단계다: "우리는 배움이 일어났는지 어떻게 알 수 있는가?"

이 질문은 생각보다 훨씬 철학적이다. 고대 그리스에서 소크라테스는 산파술(maieutics)로 학생에게 질문을 던졌는데, 그것 자체가 일종의 평가였다. 상대방이 얼마나 스스로 생각을 끌어낼 수 있는지 측정하는 과정이었다. 그런데 산업혁명 이후 대중교육이 확산되면서 평가는 전혀 다른 목적을 갖게 되었다. 공장에서 노동자를 선발하듯, 교육 시스템은 학생들을 **"분류(sorting)"하고 "선별(selection)"**하는 도구로 시험을 활용하기 시작했다. 네가 지금 치르는 수능도 이 역사적 유산의 산물이다. 교육학에서 '평가(evaluation)'는 단순히 점수를 매기는 행위가 아니다. 미국의 교육학자 랄프 타일러(Ralph Tyler, 1902-1994)는 평가를 "교육 목표가 실제로 달성되었는지를 확인하는 과정"이라고 정의했다(Tyler, 1949). 이 정의에서 핵심은 평가가 목표와 연결되어 있다는 것이다. 목표 없는 평가는 나침반 없는 항해와 같다.

[노트 기록] 평가(Evaluation)의 핵심 정의: "교육 목표의 달성 정도를 체계적으로 확인하는 과정" — 타일러(Tyler, 1949). 이것이 단순한 '성적 매기기'와 다른 이유를 자신의 언어로 한 문장으로 써보자.

교육 평가의 두 가지 축: 언제, 무엇을 기준으로 측정하는가

교육 평가는 크게 두 개의 독립적인 축으로 분류된다. 첫 번째 축은 "평가를 언제 하는가" 즉 시점(timing)의 문제고, 두 번째 축은 "무엇을 기준으로 판단하는가" 즉 준거(reference)의 문제다. 이 두 축은 서로 다른 차원이므로, 조합하면 네 가지 유형이 가능하다.

첫 번째 축부터 보자. **형성평가(formative assessment)**는 학습이 진행되는 도중에 이루어지는 평가다. 'formative'는 라틴어 'formare(형성하다)'에서 왔다. 아직 완성되지 않은, 형성되어 가는 과정 중에 개입하는 것이다. 수업 중 교사가 던지는 즉흥 질문, 중간 퀴즈, 과제에 대한 피드백, 동료 평가 — 이 모든 것이 형성평가다. 형성평가의 목적은 점수가 아니라 "지금 어디에 있는가"를 파악해서 학습의 방향을 수정하는 것이다. 반면 **총괄평가(summative assessment)**는 학습이 끝난 후 이루어진다. 'summative'는 'summate(합산하다)'에서 왔다. 학습의 총합을 판단하는 것이다. 기말고사, 수능, 졸업 논문이 이에 해당한다. 미국의 교육학자 마이클 스크리븐(Michael Scriven)은 1967년에 이 두 개념을 처음 명확히 구분하며 이렇게 비유했다: "요리사가 요리하는 도중 음식을 맛보는 것이 형성평가라면, 손님이 완성된 요리를 먹는 것이 총괄평가다." 이 비유를 기억해두면 절대 헷갈리지 않는다.

이제 두 번째 축, 준거(reference)의 문제다. **절대평가(criterion-referenced evaluation)**는 미리 정해진 기준(criterion)에 의해 학생의 성취를 판단한다. 수영 자격증 시험을 생각해보자. 50미터를 1분 이내에 완영하면 합격이다. 100명이 응시해서 95명이 합격해도 상관없다. 기준을 충족했는가, 못 했는가가 핵심이다. 2단계에서 배운 블룸 분류학의 목표 진술 — "학생은 분수의 덧셈을 80% 이상 정확도로 계산할 수 있다"라는 식의 구체적 진술 — 이 바로 절대평가의 기반이 된다. 반면 **상대평가(norm-referenced evaluation)**는 다른 학생들의 성취 분포, 즉 규준(norm)에 의해 개인의 성적을 위치 지어 판단한다. 수능 등급이 대표적인 예다. 네가 100점을 받아도 모두가 100점을 받으면 등급이 낮아질 수 있다. 개인의 절대적 능력이 아니라 집단 내 상대적 위치가 기준이다. 이 방식의 이론적 배경에는 정규분포(normal distribution) 개념이 있다. 인간의 많은 특성이 종 모양의 분포를 따른다는 가정 하에, 학생들을 서열화한다.

여기서 기술적으로 중요한 두 개념을 짚어야 한다. 좋은 평가 도구는 **신뢰도(reliability)**와 **타당도(validity)**를 갖춰야 한다. 신뢰도는 같은 것을 여러 번 측정했을 때 일관된 결과가 나오는가의 문제다. 저울이 오늘은 50kg, 내일은 55kg을 가리킨다면 신뢰도가 낮다. 타당도는 측정하려는 것을 실제로 측정하고 있는가의 문제다. 영어 독해 능력을 측정한다면서 모든 지문을 한국어로 번역하는 시험이라면 타당도가 낮다. 이 두 개념은 서로 긴장 관계에 있는 경우가 많다. 선다형 문제는 채점이 기계적으로 이루어져 신뢰도가 높지만, 고차원적 사고력을 측정하는 타당도는 낮다. 반대로 수행평가는 실제 능력을 잘 측정하지만(타당도 높음), 채점자마다 기준이 달라질 수 있어 신뢰도가 낮아지기 쉽다. 스스로에게 물어보자: 그렇다면 어떻게 수행평가의 신뢰도를 높일 수 있을까?

[노트 기록] 4가지 평가 유형을 2×2 표로 정리(시점축: 형성/총괄 × 준거축: 절대/상대). 신뢰도(Reliability) vs. 타당도(Validity)의 정의와 각각의 예시, 그리고 왜 이 두 개념이 긴장 관계에 있는지 자신의 말로 설명해보자.

루브릭: 타당도와 신뢰도를 동시에 잡는 기술

앞의 질문에 대한 답이 바로 **루브릭(rubric)**이다. 루브릭은 "수행의 질을 판단하기 위한 명시적 기준들의 집합"으로, 쉽게 말하면 정교한 채점 기준표다. 단순한 채점표와 루브릭의 차이는 **정교함(granularity)**과 **기술적 서술(descriptive language)**에 있다. "좋음/보통/나쁨"처럼 추상적인 것이 아니라, 각 수준에서 구체적으로 어떤 수행이 보여야 하는지를 명시한다.

루브릭에는 두 종류가 있다. **총체적 루브릭(holistic rubric)**은 학생의 수행 전체를 하나의 종합적 판단으로 평가한다. 빠르게 전체적 인상으로 판단하는 방식이다. 창의적 글쓰기나 예술 작품처럼 요소들이 서로 긴밀하게 연결되어 분리하기 어려운 경우에 유용하다. 반면 **분석적 루브릭(analytic rubric)**은 수행을 여러 개의 독립적인 차원(dimension)으로 분해해 각각 따로 평가한다. 과학 보고서를 평가한다면 '가설 설정', '실험 설계', '데이터 분석', '결론 도출', '형식'처럼 차원을 나누는 것이다. 분석적 루브릭은 더 구체적인 피드백을 제공할 수 있어 형성평가적 목적에 더 유용하다. 그렇다면 어떤 루브릭이 신뢰도를 높이는 데 더 유리할까? 잠시 생각해보자.

효과적인 루브릭 개발의 원칙 중 가장 중요한 것은 두 가지다. 첫째, 기준은 블룸 분류학의 행동 동사로 표현되어야 한다. 2단계에서 "학생은 ~할 수 있다"는 형태의 목표 진술을 배웠다. 루브릭의 수준 기술도 마찬가지다. "좋은 이해를 보인다"가 아니라 "주제의 세 가지 핵심 개념을 자신의 언어로 설명하고, 각 개념 간의 인과 관계를 도식으로 표현할 수 있다"처럼 구체적이어야 한다. 둘째, 루브릭은 학생에게도 반드시 공개되어야 한다. 이것이 형성평가의 핵심 정신이다. 학생이 목표와 기준을 미리 알아야 스스로 조절하며 학습할 수 있기 때문이다.

피드백과 루브릭은 떼려야 뗄 수 없다. 교육 연구에서 피드백의 효과에 관한 가장 방대한 메타분석을 수행한 사람은 뉴질랜드 교육학자 존 해티(John Hattie)다. 그는 800개 이상의 메타분석을 종합한 《Visible Learning》(2009)에서 피드백의 학업 성취 효과 크기(effect size)가 0.73으로, 수백 가지 교육적 개입 중 가장 높은 수준에 속한다고 밝혔다. 효과 크기(d) 0.4를 기준으로 통상 '의미 있는 교육적 효과'로 보는데, 0.73은 이를 크게 상회한다. 그러나 모든 피드백이 효과적인 것은 아니다. 해티가 제시한 효과적인 피드백의 3가지 질문은 다음과 같다: 나는 어디로 가고 있는가(목표)? 나는 지금 어디에 있는가(현재 수준)? 나는 어떻게 다음 단계로 나아가는가(전략)? 이를 'Feed forward', 즉 전향적 피드백이라고 부른다. 잘 설계된 루브릭은 이 세 질문에 모두 구조적으로 답한다.

[노트 기록] 총체적 vs. 분석적 루브릭의 차이와 각각의 적합한 상황을 쓰자. 해티의 피드백 3가지 질문을 쓰고, 블룸 분류학의 행동 동사 목록과 루브릭 작성이 어떻게 연결되는지 화살표로 연결해보자.

교육과정 이론: 타일러에서 백워드 설계까지

이제 더 큰 그림으로 올라가보자. 교육 평가는 단독으로 존재하지 않는다. **교육과정(curriculum)**의 맥락 속에 있다. 교육과정이란 "무엇을, 왜, 어떻게, 어떤 순서로 가르칠 것인가"에 대한 계획이다. 라틴어 'currere(달리다, 달리기 경주 코스)'에서 왔다. 학생이 달려가야 하는 학습의 경로다.

20세기 중반까지 교육과정 설계는 매우 직관적이었다. 교사가 중요하다고 생각하는 내용을 골라 가르치는 방식이었다. 이것을 체계화한 사람이 바로 앞서 언급한 랄프 타일러다. 그는 1949년 《Basic Principles of Curriculum and Instruction》이라는 얇지만 혁명적인 책에서 교육과정 설계의 핵심을 네 가지 근본 질문으로 압축했다. 첫째, 학교는 어떤 교육 목표를 추구해야 하는가? 둘째, 그 목표를 달성하기 위해 어떤 교육 경험을 제공해야 하는가? 셋째, 교육 경험을 효과적으로 조직하는 방법은 무엇인가? 넷째, 목표가 달성되었는지 어떻게 결정하는가? 이것이 **타일러 논리(Tyler's Rationale)**다. 이 모델은 목표 → 경험(내용·방법) → 조직 → 평가의 선형적 흐름을 따른다. 타일러의 혁명적 기여는 교육과정 설계를 "무엇을 가르칠 것인가"가 아닌 "왜 가르치는가"에서 시작하도록 만든 것이다.

그런데 타일러 모델에는 실천적 한계가 있다. 목표와 평가가 연결된다고는 하지만, 실제 설계 순서가 '목표 → 내용 → 평가'이다 보니, 평가는 맨 마지막에 붙는 '확인 도구'가 된다. 결과적으로 많은 교사들이 가르친 후에야 평가를 고려하면서, 수업과 평가가 어긋나는 문제가 생겼다. 극단적인 예를 들면, '민주주의의 가치를 이해한다'는 목표를 세웠지만 평가는 '민주주의의 정의를 쓰시오'라는 단순 암기 문제인 경우다. 이것이 문제인 이유를 1단계 학습이론으로 설명할 수 있겠는가?

이 문제를 해결한 것이 **그랜트 위긴스(Grant Wiggins)**와 **제이 맥타이(Jay McTighe)**의 **백워드 설계(Backward Design)**다. 이들은 1998년 《Understanding by Design》(UbD)에서 교육과정 설계의 순서를 뒤집었다. **'백워드(backward)'**라는 이름이 붙은 이유는, 일반적인 설계 방향(앞으로: 목표→내용→평가)을 역전시켜, 목표와 평가를 먼저 설계한 후 내용을 채우기 때문이다. 백워드 설계는 세 단계로 이루어진다. 1단계는 바라는 결과 확인(Identify Desired Results): 학생이 이 단원을 마쳤을 때 무엇을 이해하고, 알고, 할 수 있어야 하는가? 여기서 '빅 아이디어(Big Idea)'와 '본질적 질문(Essential Questions)'을 도출하는 것이 핵심이다. 본질적 질문의 예: "법은 공정한가?", "과학은 진리를 알 수 있는가?" 2단계는 수용 가능한 증거 결정(Determine Acceptable Evidence): 학생이 그 결과에 도달했다는 것을 어떻게 증명할 수 있는가? 이 단계에서 평가를 먼저 설계한다. 3단계는 학습 경험과 수업 계획(Plan Learning Experiences and Instruction): 그 증거를 만들어낼 수 있는 학습 활동을 설계한다. 이 논리의 핵심은 여행에 비유하면 명확하다: 타일러가 "어디서 출발하느냐"를 먼저 보고 갈 수 있는 곳을 정했다면, 백워드 설계는 "어디에 도착하고 싶은가"를 먼저 정하고 길을 찾는다.

[노트 기록] 타일러의 4가지 질문을 번호로 정리하고, 백워드 설계의 3단계를 순서도(화살표)로 그려보자. 타일러 모델과 백워드 설계의 가장 큰 차이점을 한 문장으로 정리하자.

역량기반 교육과 미래교육: 21세기의 근본 질문

타일러와 백워드 설계는 모두 "무엇을 가르칠 것인가"라는 질문에 답하는 방법론이다. 그런데 21세기에 들어서면서 더 근본적인 질문이 등장했다: "학교에서 배운 것이 실제 삶과 직업 세계에서 쓸모가 있는가?" 지식(knowledge)을 아는 것과 그것을 실제 상황에서 적용할 수 있는 능력(competence)은 다르다는 인식이 확산된 것이다.

**역량기반 교육(Competency-Based Education, CBE)**은 이 질문에서 탄생했다. 역량(competency)은 단순한 지식이나 기술이 아니라, "특정 맥락에서 효과적으로 수행할 수 있는 능력의 총체"다. 지식, 기술, 태도가 통합된 개념이다. 수영 방법을 책으로만 배운 사람과 실제로 수영을 할 수 있는 사람의 차이가 바로 지식과 역량의 차이다. OECD는 2003년 DeSeCo(Defining and Selecting Key Competencies) 프로젝트를 통해 21세기 핵심역량으로 세 가지를 제시했다: 도구를 상호작용적으로 사용하는 역량, 이질적인 집단과 상호작용하는 역량, 자율적으로 행동하는 역량. 2019년에는 이를 발전시킨 OECD Learning Compass 2030이 나왔는데, 여기서 '학생 주체성(student agency)'을 핵심 개념으로 둔다. 1단계에서 배운 구성주의 학습이론과 연결해보자. 구성주의는 학생이 능동적으로 의미를 구성한다고 했다. 역량기반 교육은 이 철학을 교육과정 설계의 차원으로 끌어올린 것이다. 2단계에서 배운 PBL(프로젝트 기반 학습)이 역량기반 교육의 대표적인 교수법인 이유도 여기에 있다.

미래교육에서 자주 언급되는 또 다른 개념은 **개인화 학습(personalized learning)**과 **평생학습(lifelong learning)**이다. AI와 디지털 기술의 발달로 교육의 시간적·공간적 경계가 허물어지고 있다. 그러나 기술이 교육의 모든 문제를 해결하지는 않는다. 1단계에서 배운 동기이론을 떠올려보자. 내재적 동기(intrinsic motivation)가 없는 학생에게 아무리 좋은 기술을 제공해도 학습 효과는 제한적이다. 결국 미래교육의 핵심 과제는 기술을 어떻게 활용하느냐가 아니라, 학생이 스스로 배우고 싶어하는 존재로 성장하도록 어떻게 환경을 설계할 것인가의 문제다. 이 질문은 4단계에서 다룰 학급경영과 직결된다.

[노트 기록] 역량(Competency)의 정의를 쓰고, 지식(Knowledge) → 기술(Skill) → 역량(Competency)의 관계를 삼각형 도식으로 표현해보자. OECD의 세 가지 핵심역량도 함께 적어두자.

프로젝트: 평가 도구 및 루브릭 제작

[안내] 아래 세 과제는 오늘 배운 내용을 직접 적용하는 문제들이다. 정답은 없다. 교육학적으로 타당한 논리를 가진 모든 답이 정답이 될 수 있다. 시작 전, 노트에 기록한 핵심 개념들을 한 번 훑어보자. 약 40분을 목표로 집중하자.

예제 1. 평가 유형 설계 의사결정 (약 12분)

너는 고등학교 사회 교사다. 아래 각 상황에 가장 적합한 평가 유형(형성/총괄, 절대/상대 중 하나 이상)을 선택하고, 그 이유를 각 평가 유형의 목적과 기능을 근거로 논리적으로 정당화하라. "그냥 좋을 것 같아서"는 논거가 될 수 없다.

상황 A: 한 단원의 시작 전, 학생들이 '세계화'라는 개념에 대해 사전에 얼마나 알고 있는지 확인하고 싶다. 이 결과를 바탕으로 수업 내용의 깊이와 속도를 조절할 예정이다. 어떤 평가를 설계할 것인가?

상황 B: 5개 반의 학생 120명 중 대학 사회학 특강에 참여할 30명을 선발해야 한다. 어떤 평가를 설계할 것인가?

상황 C: 한 학기 동안 배운 '민주주의와 시민 참여' 단원이 끝났다. 교사는 모든 학생이 '투표의 원리와 절차를 이해한다'는 최소 기준에 도달했는지 확인하고 싶다. 상위 몇 명을 선별하려는 것이 아니다. 어떤 평가를 설계할 것인가?

추가 도전: 상황 A, B, C에서 선택한 평가 유형에서 신뢰도와 타당도 간 긴장 관계가 어떻게 나타날 수 있는지 각각 한 문장으로 서술하라.

예제 2. 분석적 루브릭 개발 (약 18분)

아래는 고등학교 국어 수업에서 출제된 수행평가 과제다. "최근 사회 이슈(환경, 디지털 인권, 청소년 노동권 등) 중 하나를 선택하여 그 이슈의 원인, 현황, 해결 방안을 담은 3분 발표를 준비하시오." 이 과제를 평가하기 위한 **분석적 루브릭(analytic rubric)**을 개발하라. 루브릭은 최소 4개의 평가 차원(dimension)을 포함해야 하며, 각 차원은 4개 수준(4=우수, 3=보통, 2=미흡, 1=매우 미흡)으로 구성되어야 한다. 각 수준은 블룸 분류학의 행동 동사를 사용한 구체적이고 관찰 가능한 서술이어야 한다. "내용이 풍부하다/부족하다"처럼 모호한 서술은 루브릭이라 할 수 없다. 루브릭을 개발한 후, 이 루브릭이 해티의 피드백 3가지 질문을 어떻게 충족하는지 3~4문장으로 설명하라.

예제 3. 백워드 설계로 단원 재설계하기 (약 12분)

다음 상황을 읽어라. A 교사는 고등학교 1학년 영어 수업에서 '비교급과 최상급' 단원을 3차시로 설계했다. 1차시: 문법 규칙 설명(교사 강의), 2차시: 예문 반복 연습(워크시트), 3차시: 단원 시험(선다형 20문항). 학생들은 시험에서 평균 78점을 받았지만, 2주 후 실제 에세이 작성 시 비교급 표현을 거의 사용하지 못했다. 이 상황의 문제를 타일러 모델과 백워드 설계의 관점에서 각각 진단하라. 타일러 논리에서는 이 수업의 어떤 연결 고리가 끊어져 있는가? 백워드 설계는 이 수업의 근본적 설계 오류를 어떻게 설명하는가? 그리고 백워드 설계의 3단계에 따라 이 단원을 어떻게 재설계할지 각 단계별 핵심 내용만 간략하게 제시하라. 단, 빅 아이디어와 본질적 질문을 반드시 포함해야 한다.

세 과제를 끝냈다면, 오늘 배운 모든 내용이 하나의 흐름으로 연결된다는 것을 느낄 수 있을 것이다. 평가는 교육과정과 분리되지 않는다. 루브릭은 블룸 분류학의 목표 진술과 연결되고, 백워드 설계는 평가를 교육과정의 심장부에 놓는다. 역량기반 교육은 이 모든 것의 궁극적인 질문, "학습이 실제 삶에서 의미가 있는가?"를 끊임없이 던진다. 4단계에서는 이 원리들이 실제 학급 운영 현장, 다양한 학생들과의 만남 속에서 어떻게 살아 움직이는지를 다룰 것이다.