분자생물학 및 유전공학
분자생물학 및 유전공학 1단계: DNA 복제·수선, NGS, CRISPR-Cas9
들어가기 전에 — 세 주제는 하나의 이야기다
오늘 배울 세 기술이 왜 한 단계에 묶였는지부터 이해해야 한다. DNA가 복사될 때 오류가 생기고 → 그 오류가 쌓이면 질병 유발 변이가 되고 → NGS는 수십억 염기 속에서 그 변이를 찾아내고 → CRISPR는 그 특정 변이를 직접 교정한다. 이 인과 관계를 머릿속에 먼저 새겨두어라. 각 주제를 따로 외우는 것과, 이 흐름 위에서 이해하는 것은 완전히 다른 결과를 낳는다.
1부. 이론적 기초 — 생명의 분자 언어
DNA란 무엇인가, 정말 처음부터
7살짜리에게 DNA를 설명한다면 이렇게 말할 수 있다. 네 몸 안의 모든 세포에는 아주 긴 종이가 말려 들어가 있고, 그 종이에는 "A, T, G, C" 네 글자만 쓰인 암호문이 적혀 있다. 그 암호문이 너를 너이게 만드는 설계도다. 그런데 사람 한 명의 DNA를 다 펴면 길이가 약 2미터고, 우리 몸 세포가 약 37조 개이니, DNA를 전부 이으면 지구에서 태양까지 약 70번 왕복할 거리가 된다. 이것을 지름 6마이크로미터짜리 세포핵 안에 꾸겨 넣는 방법이 2단계에서 배울 '크로마틴 구조'와 연결되니 잊지 마라.
조금 더 정밀하게 들어가면, **DNA(Deoxyribonucleic Acid, 데옥시리보핵산)**는 **뉴클레오타이드(nucleotide)**라는 단위체가 수십억 개 연결된 폴리머다. 뉴클레오타이드 하나는 세 부분으로 구성된다: 인산기, 오탄당(deoxyribose), 그리고 네 가지 질소 염기(A=adenine, T=thymine, G=guanine, C=cytosine) 중 하나. 1953년 James Watson과 Francis Crick은 Rosalind Franklin의 X선 회절 사진("Photo 51")을 토대로 DNA가 이중 나선(double helix) 구조임을 밝혔다(Watson & Crick, 1953, Nature). 두 가닥은 서로 상보적(complementary)으로 결합하는데, A는 반드시 T와, G는 반드시 C와 수소 결합(hydrogen bond)을 형성한다. 이것이 Erwin Chargaff가 먼저 실험으로 발견한 **'Chargaff의 법칙'**이다. 이 단순한 규칙 하나가 오늘 배울 복제, NGS, CRISPR 세 가지 모두의 물리적 근간이 된다.
[노트 기록] Chargaff의 법칙: [A]=[T], [G]=[C]. 뉴클레오타이드 = 인산 + 오탄당 + 염기. 이중 나선의 두 가닥은 반평행(antiparallel): 한 가닥이 5'→3' 방향이면 상대 가닥은 3'→5'. 이 방향성이 복제 메커니즘 전체를 결정한다.
센트럴 도그마 — 정보의 단방향 흐름
분자생물학에서 가장 핵심적인 원리는 **센트럴 도그마(Central Dogma)**다. Francis Crick이 1958년에 제안한 이 원리를 한 줄로 요약하면 "유전 정보는 DNA → RNA → 단백질 방향으로 흐른다"는 것이다. DNA는 **전사(transcription)**를 통해 mRNA로 복사되고, mRNA는 **번역(translation)**을 통해 단백질로 만들어진다. 단백질이 DNA 서열을 직접 바꾸는 일은 일반적으로 일어나지 않는다. 이 맥락에서 CRISPR가 "DNA를 직접 편집"한다는 것이 왜 혁명적인지 감이 와야 한다. DNA 수준에서 바꾸면, 그 세포가 살아있는 한 RNA와 단백질 모두 영구적으로 바뀐다.
복제가 필요한 이유 — 그리고 문제의 씨앗
세포가 분열할 때마다 DNA를 통째로 복사해야 한다. 인간 세포 하나에는 약 **32억 쌍(3.2 × 10⁹ bp)**의 염기가 있다. 효소가 초당 약 1,000개의 염기를 합성하면서도 오류율을 10⁻⁹ 수준으로 유지하는 것은 세포가 진화시킨 정교한 품질 관리 덕분이다. 그러나 세포 분열은 평생 수조 번 일어나고, 방사선·화학물질·산화 스트레스 같은 외부 요인까지 가세하면, 오류는 필연적으로 쌓인다. 이 오류가 바로 암이 되고, 유전 질환이 된다. 학습 목표 ①의 "물리적 에러를 안다"는 단순히 오류 유형을 외우는 게 아니라 이 인과 관계에서 이해해야 한다.
2부-A. DNA 복제와 정밀 수선 메커니즘
반보존적 복제 — 아이디어 자체가 우아하다
이중 나선의 두 가닥이 분리되면, 각 가닥이 새로운 가닥을 합성하는 **주형(template)**이 된다. 결과적으로 딸세포 두 개는 각각 원래 가닥 하나와 새 가닥 하나를 갖게 된다. 이것을 **반보존적 복제(semi-conservative replication)**라 한다. 1958년 Meselson과 Stahl은 질소 동위원소(¹⁵N과 ¹⁴N)를 이용한 실험으로 이를 증명했다(Meselson & Stahl, 1958, PNAS). 잠깐 멈추고 스스로 생각해봐라. 왜 자연은 이 방식을 선택했을까? 오래된 가닥을 교정의 기준으로 쓸 수 있다는 이점이 있다. 이것이 이후 배울 **MMR(미스매치 복구)**에서 얼마나 결정적인지 연결하며 읽어야 한다.
복제 포크와 핵심 효소들
복제는 **복제 원점(origin of replication, ori)**에서 시작해 양방향으로 진행되며, 그 끝에 Y자 구조인 **복제 포크(replication fork)**가 형성된다. 인간 게놈에는 수만 개의 ori가 있어 동시 다발적으로 복제가 개시된다. 여기서 등장하는 효소들을 드림팀으로 생각해봐라. **헬리카아제(Helicase)**는 ATP를 소비해 이중 나선의 수소 결합을 끊고 두 가닥을 분리하는 선발대다. 나선이 풀리면 앞쪽 DNA에 초나선(supercoil) 장력이 생기는데, **위상이성화효소(Topoisomerase)**가 가닥을 일시적으로 끊고 다시 연결해 이 장력을 해소한다. **프리마아제(Primase)**는 RNA 올리고머로 된 짧은 **프라이머(primer)**를 합성한다. DNA 중합효소가 새 가닥을 아무 데서나 시작하지 못하고 반드시 프라이머가 있어야 하는 제약이 왜 존재하는지 생각해봐라. 임의로 어디서나 합성이 시작되면 오류 제어가 불가능해진다. **DNA 중합효소 III(Pol III)**가 메인 합성 효소로, 5'→3' 방향으로만 새 가닥을 늘릴 수 있다.
앞서 배운 두 가닥의 반평행 구조 때문에, 복제 포크 방향으로 연속 합성되는 **선도 가닥(leading strand)**과 반대 방향으로 짧게 끊어서 합성해야 하는 **지연 가닥(lagging strand)**이 나뉜다. 지연 가닥의 짧은 조각들을 **오카자키 절편(Okazaki fragment)**이라 하며, 1968년 Reiji & Tsuneko Okazaki 부부가 발견했다. **DNA 중합효소 I(Pol I)**이 오카자키 절편 사이의 RNA 프라이머를 제거하고 DNA로 채운다. 마지막으로 **DNA 리가아제(Ligase)**가 닉(nick, 인산디에스터 결합이 끊긴 틈)을 봉합한다.
[노트 기록] 복제 효소 순서: Helicase(분리) → Topoisomerase(장력 해소) → Primase(프라이머) → Pol III(합성) → Pol I(프라이머 제거 및 갭 채움) → Ligase(봉합). Leading strand = 연속합성. Lagging strand = Okazaki fragment로 단편 합성.
오류의 종류와 세 겹의 방어선
복제 오류는 크게 세 가지다. 치환(substitution): 한 염기가 다른 것으로 바뀐다. 삽입(insertion): 여분의 염기가 끼어든다. 결실(deletion): 염기가 빠진다. 삽입과 결실은 합쳐 indel이라 부르는데, 이 경우 읽기 틀(reading frame)이 밀려 이후 코돈이 완전히 달라지는 프레임시프트(frameshift) 돌연변이가 일어난다. 나중에 CRISPR를 배울 때, NHEJ로 유전자를 녹아웃시키는 원리가 바로 이 프레임시프트다. 연결이 보이는가.
첫 번째 방어선은 **Pol III 자체의 교정 능력(proofreading)**이다. 잘못 삽입된 뉴클레오타이드를 3'→5' 엑소뉴클레아제 활성으로 즉시 제거하고 다시 합성해, 오류율이 10⁻⁵에서 10⁻⁷로 낮아진다. 두 번째 방어선은 **미스매치 복구(Mismatch Repair, MMR)**다. 복제 직후 상보적이지 않은 염기 쌍을 인식하는 MutS 단백질 복합체가 오류 지점을 탐지하고, MutL·MutH가 새로 합성된 가닥(헤미메틸화 상태라 주형 가닥과 구분된다 — 앞서 배운 반보존적 복제의 이점!)의 염기를 잘라내 교정한다. MMR 유전자(MLH1, MSH2 등)가 망가지면 DNA 오류가 폭발적으로 축적되는데, 이것이 일부 유전성 대장암(Lynch syndrome)의 원인이다. 세 번째 방어선은 손상 특이적 복구 경로들이다. **염기 절제 복구(Base Excision Repair, BER)**는 산화·탈아미노화된 단일 염기를 DNA 글리코실라아제가 제거하고 새 염기로 채운다. **뉴클레오타이드 절제 복구(Nucleotide Excision Repair, NER)**는 자외선에 의한 피리미딘 이합체(thymine dimer) 같은 큰 구조 변형을 수십 개 단위로 도려낸다. NER 경로가 망가지면 **색소성 건피증(xeroderma pigmentosum)**이라는 희귀 질환이 생겨, 햇빛에 노출될 때마다 심각한 피부암 위험이 급증한다.
마지막으로, **이중 가닥 절단(Double-Strand Break, DSB)**은 가장 치명적인 손상이다. CRISPR가 이 DSB를 인위적으로 만드는 방식을 쓰기 때문에, 이 복구 경로를 이해하는 것이 필수적이다. DSB 복구에는 두 갈래가 있다. **비상동 말단 결합(Non-Homologous End Joining, NHEJ)**은 빠르지만 부정확해서 indel을 남긴다. **상동 재조합(Homologous Directed Repair, HDR)**은 상동 서열이 존재할 때만 작동하지만 정확하게 복구한다. CRISPR로 유전자를 단순히 망가뜨리려면 NHEJ를, 특정 서열로 정밀 교정하려면 HDR을 이용한다.
[노트 기록] 수선 경로 요약: Proofreading(Pol III) → MMR(MutS/MutL, 새 가닥 교정) → BER(산화 등 단일 염기 손상) → NER(자외선 이합체 등 큰 구조 변형) → NHEJ/HDR(이중 가닥 절단). CRISPR = 인위적 DSB → NHEJ(KO) or HDR(KI).
2부-B. NGS 데이터 분석과 유전체 서열 비교
서열 결정의 역사 — 왜 NGS가 혁명인가
1977년 Frederick Sanger가 개발한 **생어 시퀀싱(Sanger sequencing)**은 한 번에 약 1,000 bp를 읽을 수 있었다. 인간 게놈 프로젝트(Human Genome Project)는 이 방법으로 진행됐고, 완료까지 13년과 약 27억 달러가 들었다(1990–2003). 지금은 어떨까. **차세대 서열 결정(Next-Generation Sequencing, NGS)**은 수십억 개의 짧은 단편을 병렬로 읽어, 사람 게놈 전체를 24–48시간 안에, 약 100만 원(~1,000달러) 이하로 해독할 수 있다(Metzker, 2010, Nature Reviews Genetics). 비용 하락 속도는 무어의 법칙을 뛰어넘어 "NGS 무어의 법칙"이라 불릴 정도다. 이것이 왜 혁명인지 느껴봐라. 암 환자의 종양 세포만 따로 시퀀싱해 어떤 돌연변이가 생겼는지 알아낼 수 있고, 이 정보가 맞춤형 항암 치료의 기반이 된다.
NGS의 작동 원리 — Illumina SBS를 중심으로
가장 널리 쓰이는 Illumina 플랫폼은 크게 세 단계로 작동한다. 첫째, 라이브러리 준비(Library Preparation): 게놈 DNA를 음파 처리(sonication)나 효소로 150–300 bp 짧은 조각으로 쪼개고, 양 끝에 알려진 서열의 **어댑터(adapter)**를 붙인다. 앞서 배운 것처럼 DNA 중합효소가 알려진 서열(프라이머 역할)이 있어야 합성을 시작할 수 있기 때문에 어댑터가 필요하다는 점에서 복제 원리와 연결된다. 둘째, 클러스터 증폭: 어댑터가 붙은 조각들이 유리 플로우셀(flow cell)에 고정되고, **브리지 증폭(bridge amplification)**을 통해 동일한 서열의 클러스터가 수백만 개 생긴다. 셋째, 합성에 의한 서열 결정(Sequencing by Synthesis, SBS): 형광 표지된 dNTP를 한 번에 하나씩 추가하면서 카메라로 빛을 기록해 각 사이클마다 어떤 염기가 붙었는지 기록한다. 결과로 나오는 것이 리드(read), 즉 짧은 서열 조각들의 집합이다.
데이터 형식과 분석 파이프라인
NGS 결과는 FASTQ 형식으로 저장된다. 각 리드마다 서열(A/T/G/C)과 함께 **Phred quality score(Q score)**가 붙는다. Q30은 1,000개 중 1개 오류, 즉 정확도 99.9%를 의미한다. 공식은 **Q = −10 × log₁₀(오류 확률)**로, Q20 = 99%, Q30 = 99.9%, Q40 = 99.99%가 된다. 분석은 품질 관리(QC)로 시작한다. FastQC 같은 도구로 리드 품질을 확인하고, 저품질 리드와 어댑터 서열을 Trimmomatic 같은 도구로 제거한다. 그 다음 **정렬(Alignment)**로 각 리드를 참조 게놈(reference genome, 예: hg38)에 매핑한다. BWA-MEM 알고리즘이 200 bp 이상의 리드를 매우 효율적으로 처리한다(Li & Durbin, 2009, Bioinformatics). 결과는 BAM/SAM 파일로 저장되는데, SAM은 텍스트 형식이고 BAM은 그 이진 압축판이다. 이어서 **변이 탐색(Variant Calling)**에서 GATK(Genome Analysis Toolkit)의 HaplotypeCaller 같은 도구가 참조 게놈 대비 다른 서열을 찾아낸다(McKenna et al., 2010, Genome Research). 결과는 VCF(Variant Call Format) 파일로 저장되고, 각 줄이 하나의 변이를 나타낸다. 마지막으로 **주석 달기(Annotation)**에서 발견된 변이가 어떤 유전자에 있는지, 알려진 질환과 연관됐는지 ClinVar, dbSNP, OMIM 같은 데이터베이스와 비교한다.
[노트 기록] NGS 파이프라인: FASTQ(원시 데이터) → QC(FastQC/Trimmomatic) → 정렬(BWA-MEM) → BAM 파일 → 변이탐색(GATK) → VCF 파일 → 주석(ClinVar/OMIM). Phred Q = −10 × log₁₀(오류확률). Q30 = 99.9% 정확도.
서열 비교의 의미 — SNP, Indel, CNV
참조 게놈 대비 개인 차이를 **변이(variant)**라 한다. **SNP(Single Nucleotide Polymorphism, 단일 뉴클레오타이드 다형성)**는 한 위치에서 한 염기가 다른 것이다. 인구 집단의 1% 이상에서 나타나면 SNP, 더 희귀하면 '드문 변이(rare variant)'라 한다. Indel은 앞서 배운 삽입·결실 돌연변이다. **CNV(Copy Number Variation)**는 특정 구간이 여러 번 중복되거나 아예 결실된 것이다. 건강한 세포와 암세포 게놈을 NGS로 비교하면, 암세포에 특이적인 **체세포 변이(somatic mutation)**가 드러난다. 이런 변이가 암 드라이버 유전자(TP53, KRAS 등)에 있으면 표적 치료의 대상이 된다. 바로 이 변이를 CRISPR로 교정하는 것이 학습 목표 ③의 핵심이다.
2부-C. CRISPR-Cas9: 유전체의 외과의사
발견의 역사 — 세균의 면역 시스템에서
1987년 일본의 Yoshizumi Ishino가 E. coli 게놈을 분석하다 이상한 반복 서열을 발견했다. 당시에는 기능을 몰랐다. 2000년대 초반 Francisco Mojica가 여러 세균과 고세균에서 같은 패턴을 발견하고 **CRISPR(Clustered Regularly Interspaced Short Palindromic Repeats)**라 명명했다. 2007년 Barrangou 등이 이것이 세균의 적응 면역 시스템임을 밝혔다. 세균은 침입한 바이러스(파지) DNA 조각을 CRISPR 어레이 사이에 끼워두고, 다음 번에 같은 바이러스가 오면 Cas 단백질과 함께 잘라 파괴한다. 2012년 Jennifer Doudna와 Emmanuelle Charpentier가 Streptococcus pyogenes의 Cas9 단백질을 재프로그래밍 가능한 유전자 가위로 쓸 수 있음을 보였다(Doudna & Charpentier, 2012, Science). 2020년 그들은 노벨 화학상을 받았다.
분자 메커니즘 — 어떻게 정확한 위치를 자르는가
CRISPR-Cas9 시스템은 두 핵심 요소로 작동한다. 첫째, **guide RNA(gRNA)**다. 실험실에서는 crRNA와 tracrRNA를 합쳐 **single guide RNA(sgRNA)**로 만든다. sgRNA의 5' 말단 20 nt 서열(spacer 서열)이 표적 DNA와 직접 염기쌍을 이루어 결합한다. 즉, 이 20 nt만 바꾸면 어느 게놈 위치든 표적으로 삼을 수 있다. 이것이 CRISPR의 가장 강력한 점이다. 과거의 ZFN이나 TALEN은 표적마다 새로운 단백질을 설계해야 했지만, CRISPR는 sgRNA 서열만 바꾸면 된다. 둘째, PAM(Protospacer Adjacent Motif) 서열이다. S. pyogenes Cas9(SpCas9)은 표적 서열의 3' 말단에 반드시 5'-NGG-3' 서열이 있어야 한다. Cas9이 DNA를 훑으면서 NGG를 먼저 찾고, 그 인접 서열이 gRNA와 상보적인지 확인하는 방식이다. PAM이 없으면 Cas9은 결합하지 못한다. 이 제약이 gRNA 설계에 핵심 변수가 된다.
셋째, 절단 과정이다. sgRNA와 Cas9 복합체가 표적 DNA에 결합하면, Cas9의 두 뉴클레아제 도메인(RuvC와 HNH)이 각각 비상보 가닥과 상보 가닥을 잘라 **이중 가닥 절단(DSB)**을 만든다. 절단 위치는 PAM에서 3 bp 업스트림이다. 이 DSB가 생기면 앞서 배운 수선 경로가 작동한다. NHEJ를 이용하면 부정확한 수선으로 indel이 생겨 프레임시프트 → 유전자 기능 상실(녹아웃, KO)이 된다. HDR을 이용하면 원하는 서열을 담은 DNA 주형(donor template)을 함께 넣어주면 정확한 교정(녹인, KI)이 가능하다. 복제와 수선에서 배운 HDR이 여기서 다시 등장한다는 점을 느껴봐라.
[노트 기록] CRISPR 핵심 3요소: ① 20 nt spacer 서열(표적 결정) ② PAM(NGG, SpCas9) ③ DSB(절단) → NHEJ(indel, KO) or HDR(정밀 KI). gRNA 설계 = 표적 20 nt + PAM 확인 + GC 함량 40–70% + off-target 예측.
Off-target — 가장 중요한 안전 문제
Cas9은 완벽하게 상보적인 서열만 자르지 않는다. 1–3개의 미스매치가 있어도 잘릴 수 있다. 이런 오프-타겟(off-target) 절단이 예상치 못한 유전자 손상을 일으킬 수 있다. 특히 시드 서열(seed sequence): PAM 바로 인접한 8–12 nt가 Cas9 결합에 가장 중요해서, 이 영역에 미스매치가 없으면 오프-타겟 가능성이 크게 올라간다. Cas-OFFinder, CRISPOR 같은 도구가 오프-타겟 가능 위치를 예측한다. 임상 적용에서 오프-타겟 분석이 절대적으로 중요한 이유는, 원하지 않는 유전자가 망가지면 암이나 다른 질환이 생길 수 있기 때문이다.
임상 응용 — CRISPR가 이미 치료제가 됐다
2023년 12월, FDA와 영국 MHRA는 세계 최초 CRISPR 기반 치료제 **Casgevy(exagamglogene autotemcel)**를 승인했다. 겸상 적혈구 빈혈(sickle cell disease)과 β-지중해 빈혈(β-thalassemia) 치료제로, 환자의 조혈모세포에서 BCL11A 유전자를 CRISPR로 편집해 태아 헤모글로빈(HbF) 발현을 재활성화한다. NGS로 환자 변이를 확인하고 → 맞춤 gRNA를 설계하고 → CRISPR로 편집하는 전체 흐름이 실제 임상에서 작동하고 있다.
3부. 세 기술의 통합 — 전체 그림
지금까지 배운 것을 다시 잇자. DNA 복제에서 오류가 생긴다 → MMR, BER, NER가 대부분 잡아내지만 수선을 벗어난 돌연변이는 축적된다 → NGS가 수십억 염기 속에서 질환 관련 변이를 찾아낸다(FASTQ→BWA→GATK→VCF→ClinVar) → CRISPR-Cas9이 그 특정 변이를 표적 삼아 교정한다(gRNA 설계→PAM 확인→DSB→HDR). 이 순환이 현대 **정밀의학(precision medicine)**의 기본 공식이다.
4부. 프로젝트 — 정답 없이, 스스로 설계하라
아래 세 개의 프로젝트는 각각 10–15분씩, 총 약 40분이 걸린다. 정답을 찾으려 하지 말고, 어떤 논리와 근거로 접근할 수 있는지 생각하며 그 과정을 직접 종이에 써봐라.
[프로젝트 1] DNA 복제 오류와 수선 경로 선택 (약 10분)
어떤 환자의 피부세포에서 다음 두 상황이 동시에 감지됐다.
상황 A: 정상 서열 5'-GCATGCATGC-3'인 부위가 복제 후 5'-GCATTCATGC-3'로 바뀌어 있다. (C 자리에 T가 삽입됨)
상황 B: 강한 자외선에 노출된 후, 어떤 구간의 인접한 두 T 사이에 비정상적인 공유 결합이 형성됐다는 보고가 있다.
첫 번째 질문: 상황 A의 오류는 어떤 수선 경로가 처리해야 하는가? 그 경로의 핵심 단백질과 함께 답하고, 이 경로가 망가졌을 때의 질환 리스크를 서술하라. 두 번째 질문: 상황 B에서 자외선이 만드는 손상의 이름은 무엇이고, 어떤 수선 경로가 이를 처리하는가? 이 경로가 결여된 사람에게 생기는 질환의 이름을 조사하고, 왜 그 사람이 햇빛을 반드시 피해야 하는지 분자 수준에서 설명하라. 세 번째 질문: 만약 이 두 수선 경로가 모두 작동하지 않는 세포주에서 CRISPR 실험을 수행한다면, 실험 결과에 어떤 예상치 못한 문제가 생길 수 있을지 추론하라. (힌트: CRISPR가 만드는 것이 무엇이었는지 떠올려라.)
[프로젝트 2] NGS 데이터 해석 — 변이 찾기 (약 15분)
아래는 한 환자의 WES(Whole Exome Sequencing) 결과에서 얻은 VCF 파일 일부다. 형식은 실제와 동일한 가상 데이터다.
#CHROM POS ID REF ALT QUAL FILTER INFO
chr11 5246696 rs334 A T 9999 PASS AF=0.01;DP=50;Gene=HBB
chr17 7674220 rs28934578 C T 7832 PASS AF=0.002;DP=45;Gene=TP53
chr7 117548628 . G T 456 LowQual AF=0.45;DP=12;Gene=CFTR
chr11 5246900 . GAAAG G 8900 PASS AF=0.001;DP=60;Gene=HBB
첫 번째 질문: 첫 번째 변이(chr11:5246696, rs334)는 HBB 유전자에 있고 AF(대립 유전자 빈도)는 0.01이다. 이 변이가 어떤 유전 질환과 연관돼 있는지 쓰고, 그 질환의 분자 메커니즘을 DNA→RNA→단백질 수준에서 설명하라. 두 번째 질문: 세 번째 변이(chr7:117548628)는 FILTER가 "LowQual"이다. 이 변이는 실제 변이일 가능성이 높은가, 시퀀싱 오류일 가능성이 높은가? QUAL 값과 Phred 스코어의 관계, 그리고 DP(읽기 깊이, depth) 값을 근거로 판단하라. 세 번째 질문: 네 번째 변이(chr11:5246900)는 REF가 "GAAAG"이고 ALT가 "G"다. 이것은 어떤 유형의 변이인가? 만약 이 변이가 HBB 코딩 서열 내에 있다면 단백질에 어떤 영향을 미칠 가능성이 높은가? 네 번째 질문(심화): 이 환자가 chr11 HBB 유전자에 첫 번째와 네 번째 변이를 양쪽 대립 유전자(allele)에 각각 하나씩 가지고 있다면(복합 이형접합체, compound heterozygote), 임상적으로 어떤 의미인지 추론하라. 이 환자에게 CRISPR 치료를 적용하려면 어느 변이를 먼저 표적으로 삼아야 할지, 그 이유와 함께 논리적으로 제안하라.
[프로젝트 3] gRNA 설계 및 오프-타겟 리스크 평가 + 통합 설계 (약 15분)
다음은 PCSK9 유전자(높은 LDL 콜레스테롤과 관련된 심혈관 질환 유전자) 엑손 2 근처의 가상 서열이다. 이 유전자를 녹아웃시켜 LDL 수치를 낮추는 전략을 설계하라. (실제로 PCSK9 KO는 임상 개발 중인 전략이다.)
5'-ATGCGTAAGCTTGGCAATCGGAAGGGCTAGCTTAAAACGGTGGCATTTCGGAATGCGATCGAACGTAAGG
CGATCGGAATCGGTAGCAATCGGATCGGAAGCTTAAAACGG-3'
첫 번째 질문: 위 서열에서 SpCas9(PAM: NGG)을 이용해 유전자를 녹아웃할 수 있는 gRNA 후보를 두 개 이상 찾아라. 각 후보의 20 nt spacer 서열과 PAM 위치를 명시하고, GC 함량이 40–70%인 것만 선택하라. 두 번째 질문: 아래 두 오프-타겟 후보를 보고, 어느 것이 실제 절단이 일어날 가능성이 더 높은지 판단하고 이유를 설명하라.
설계한 gRNA 서열(예시): 5'-AATCGGAAGGGCTAGCTTAA-3'
오프-타겟 후보 A: 5'-AATCGGAAGGGCTAGCTTAG-3' + NGG (PAM 인접 시드 영역 밖에 미스매치 1개)
오프-타겟 후보 B: 5'-AATCGGAAGAGCTAGCTTAA-3' + NGG (PAM 인접 시드 영역 내에 미스매치 1개)
세 번째 질문: 이 PCSK9 녹아웃 CRISPR를 실제 환자에게 임상 적용한다면, off-target 분석 외에 어떤 추가 안전성 평가가 필요할지 최소 3가지를 제안하고 각각 왜 필요한지 분자 수준의 이유를 함께 써라. 네 번째 질문(통합): 다음 시나리오로 CRISPR 치료 프로토콜을 설계하라.
진단: Diamond-Blackfan Anemia(DBA). NGS WGS 결과 RPS19 유전자 엑손 3에 단일 염기 치환(c.214G>A, p.Gly72Arg) 발견. ClinVar Pathogenic 분류. 환자 골수 조혈모세포에서 교정 실험 계획. 표적 서열 주변:
5'-CCAGTGCCGG[G>A]CGTACGGTT-3'(브라켓이 변이 위치, 우측 5 bp에 NGG PAM 존재). HDR을 통한 점 교정 목표.
(a) 이 시나리오에서 NHEJ 대신 HDR이 반드시 필요한 이유를 설명하라. (b) HDR donor template를 설계할 때 포함해야 할 구성 요소를 논리적으로 서술하라. (c) 편집 성공 여부를 어떻게 확인할 것인가? NGS를 이용한 검증 방법을 구체적으로 제안하라.
마치며
1단계에서 너는 DNA 복제의 물리적 정밀도와 그 한계, 수선 경로들의 층위, NGS가 빅데이터에서 변이를 찾아내는 파이프라인, 그리고 CRISPR가 그 변이를 정조준하는 분자 메커니즘까지 하나의 흐름으로 연결해서 배웠다. 2단계에서는 DNA 서열 위에 놓이는 또 다른 층, 즉 후성유전학과 전사 조절로 들어간다. DNA 서열이 같아도 유전자 발현이 달라지는 이유, 암세포의 메틸화 패턴, 그리고 단백질이 3차원 구조를 접는 원리가 오늘 배운 내용 위에 새 층으로 더해진다. 프로젝트 문제를 펴고 혼자 씨름해봐라.