분자생물학 및 유전공학 — 2단계: 유전자의 목소리를 조율하는 자들

이론적 기초 — 왜 유전자는 '켜고 끄는' 스위치가 필요한가

1단계에서 우리는 DNA가 복제되고, CRISPR로 편집되며, NGS로 읽힌다는 사실을 배웠다. 그런데 여기서 잠깐, 아주 근본적인 질문을 하나 던져보자. 너의 몸 안에는 약 37조 개의 세포가 있고, 그 세포들은 모두 동일한 DNA를 가지고 있다. 눈의 망막 세포도, 췌장의 인슐린 분비 세포도, 심장 근육 세포도 전부 같은 30억 쌍의 염기 서열을 품고 있다. 그런데 어떻게 같은 설계도를 가진 세포들이 저마다 이렇게 다른 형태와 기능을 갖는 것일까? 이 질문이 바로 2단계 전체를 관통하는 핵심이다.

비유를 하나 쓰자면, DNA는 한 도서관에 있는 수십만 권의 책과 같다. 이 책들은 모든 지식을 담고 있지만, 도서관 사서가 어떤 책을 꺼내서 읽을지 결정한다. 망막 세포는 '광수용체 단백질' 레시피가 담긴 책만 열심히 꺼내 읽고, 췌장 세포는 '인슐린' 레시피 책만 읽는다. 세포의 정체성은 어떤 유전자가 발현되느냐, 즉 어떤 책을 읽느냐에 달려 있다. 이 '사서'의 역할을 하는 것이 전사 조절(Transcriptional Regulation)과 후성유전학(Epigenetics)이다.

한 가지 더 배경지식으로 짚고 넘어가자. 1단계에서 배운 중심 원리(Central Dogma)를 기억하는가? DNA → RNA → 단백질로 이어지는 정보의 흐름. 이 흐름의 각 단계에는 조절 지점이 존재한다. 전사(Transcription) 단계, RNA 가공(RNA Processing) 단계, 번역(Translation) 단계 모두에서 발현량이 조절될 수 있다는 뜻이다. 2단계는 이 조절의 층위들을 하나하나 파헤친다.

1부: 전사 조절과 후성유전학 — 유전체의 지형을 바꾸는 화학 반응들

크로마틴 구조: DNA를 포장하는 방식이 곧 운명이다

먼저 물리적인 현실을 직시해야 한다. 사람 세포 하나의 DNA를 쭉 펼치면 약 2미터에 달한다. 이것을 지름 6마이크로미터(0.006mm)짜리 세포핵 안에 집어넣으려면 엄청난 수준의 압축이 필요하다. 이 압축은 **히스톤(Histone)**이라는 단백질을 중심으로 이루어진다. DNA는 히스톤 단백질 여덟 개로 이루어진 뭉치(뉴클레오솜, Nucleosome) 주위를 약 1.7바퀴 감아 돈다. 이 구조가 반복되면 마치 실패에 실이 감긴 것처럼 보이는데, 이것이 **크로마틴(Chromatin)**이다.

핵심은 여기서 나온다. DNA가 히스톤에 얼마나 촘촘하게 감겨 있느냐에 따라, 전사 기계(RNA 중합효소와 그 동반자들)가 해당 유전자에 접근할 수 있는지가 결정된다. 유전자가 아무리 훌륭한 서열을 가지고 있어도, DNA가 단단히 감겨 접근 불가능한 상태라면 그 유전자는 발현될 수 없다. 촘촘하게 감긴 크로마틴 상태를 헤테로크로마틴(Heterochromatin), 느슨하게 풀린 상태를 **유크로마틴(Euchromatin)**이라 한다. 이것이 후성유전학적 조절의 물리적 토대다.

[노트 기록] 크로마틴 상태와 전사 활성의 관계: Heterochromatin(조밀, 전사 불활성) ↔ Euchromatin(느슨, 전사 활성). 이 상태를 결정하는 것이 아래에 나오는 두 가지 화학 수식이다.

DNA 메틸화: 유전자에 '읽지 마시오' 스티커를 붙이다

**DNA 메틸화(DNA Methylation)**는 DNA 서열 자체를 바꾸지 않으면서도 유전자 발현을 조절하는 가장 고전적인 후성유전학적 기제다. 구체적으로는, **DNA 메틸전달효소(DNMT, DNA Methyltransferase)**라는 효소가 시토신(C) 염기의 5번 탄소에 메틸기(-CH₃)를 붙이는 반응이다. 이 반응은 주로 CpG 서열, 즉 시토신 바로 다음에 구아닌(G)이 오는 위치에서 일어난다.

유전자의 앞부분, 즉 전사가 시작되는 지점 근처에는 **CpG 아일랜드(CpG Island)**라 불리는, CpG 서열이 밀집된 구역이 존재한다. 이 CpG 아일랜드가 메틸화되면 전사 인자들이 결합하지 못하거나, 메틸화된 DNA를 인식하는 단백질들이 달라붙어 크로마틴을 더욱 촘촘하게 만들어 유전자를 침묵시킨다. 반대로, 이 구역이 메틸화되지 않은 상태라면 유전자는 발현될 가능성이 열린다.

암(Cancer) 생물학에서 이 메틸화는 극도로 중요한 의미를 갖는다. 많은 암세포에서는 정상 세포의 증식을 억제하는 **종양 억제 유전자(Tumor Suppressor Gene)**의 CpG 아일랜드가 비정상적으로 과메틸화(Hypermethylation)되어 침묵하는 현상이 관찰된다. BRCA1 유전자나 MLH1 유전자가 돌연변이 없이 메틸화만으로 꺼지는 것이 그 대표적인 예다. 이 단계의 프로젝트에서 너는 바로 이 암의 메틸화 마커를 분석하게 될 것이다.

[노트 기록] 메틸화의 방향성: CpG Island 과메틸화 → 종양 억제 유전자 침묵 → 암 발생 촉진. 역으로 암유전자(Oncogene) 주변의 저메틸화(Hypomethylation)도 암 발생과 연관된다.

히스톤 변형: 크로마틴의 '언어'를 새로 쓰다

DNA 메틸화가 DNA 자체에 붙이는 표시라면, **히스톤 변형(Histone Modification)**은 DNA를 감고 있는 히스톤 단백질에 붙이는 표시다. 히스톤의 꼬리 부분(Histone Tail)은 핵심 뭉치 바깥으로 튀어나와 있는데, 이 꼬리에 다양한 화학 그룹이 붙거나 떼어지면서 크로마틴의 압축 상태와 전사 활성이 조절된다. 이 히스톤 변형들의 조합을 **히스톤 코드(Histone Code)**라 부른다.

가장 잘 연구된 변형은 두 가지다. **히스톤 아세틸화(Acetylation)**는 히스톤 꼬리의 라이신(Lysine) 잔기에 아세틸기(-COCH₃)를 붙이는 반응으로, HAT(Histone Acetyltransferase)가 촉매한다. 아세틸기가 붙으면 히스톤과 DNA 사이의 정전기적 인력이 약해져 크로마틴이 느슨해지고 전사가 활성화된다. 반대로 HDAC(Histone Deacetylase)가 아세틸기를 제거하면 크로마틴이 다시 조밀해진다. 암 치료에 사용되는 **HDAC 억제제(HDAC Inhibitor, 예: Vorinostat)**는 이 원리를 이용해 암유전자 침묵 효과를 낸다. **히스톤 메틸화(Methylation)**는 더 복잡하다. 어느 히스톤의 어느 잔기가, 몇 번 메틸화되느냐에 따라 전사 활성화가 될 수도, 억제가 될 수도 있다. 예컨대 H3K4me3(히스톤 H3의 4번 라이신이 3번 메틸화됨)는 활성 유전자의 표지인 반면, H3K27me3는 억제 표지다.

이쯤에서 스스로 한번 생각해보자. DNA 메틸화와 히스톤 변형이 세대를 거쳐 전달될 수 있다면, 부모의 경험(스트레스, 식이, 환경)이 자식의 유전자 발현에 영향을 줄 수 있다는 뜻이 된다. 이것이 사실일까? 어떤 조건에서 가능하고 어떤 조건에서 불가능할까? 이 질문을 머릿속에 담아두고 계속 읽어라.

전사 인자: 언제 어디서 유전자를 켤지 결정하는 지휘자

후성유전학이 크로마틴의 접근 가능성을 설정하는 '지형'이라면, **전사 인자(Transcription Factor, TF)**는 실제로 그 지형 위에서 유전자 발현을 지휘하는 '지휘자'다. 전사 인자는 DNA의 특정 서열(인핸서, Enhancer 또는 프로모터, Promoter 등)에 결합해 RNA 중합효소 II가 전사를 시작하도록 돕거나 막는다.

흥미로운 점은 인핸서가 조절하는 유전자와 물리적으로 수천, 수만 염기쌍 떨어져 있을 수 있다는 것이다. 그러면 어떻게 인핸서에 붙은 전사 인자가 멀리 떨어진 프로모터에 영향을 미칠까? DNA는 3차원 공간에서 루프를 형성해 인핸서와 프로모터를 물리적으로 인접하게 만든다. 이 루프 형성에는 **코헤신(Cohesin)**과 CTCF라는 단백질이 중요한 역할을 한다. 이 3차원 유전체 구조를 연구하는 기법이 Hi-C이며, 최근 유전체 연구의 뜨거운 분야 중 하나다.

2부: RNA 세계 — 코딩되지 않아도 조절한다

스플라이싱: 하나의 유전자에서 여러 단백질을 만드는 마법

앞서 배운 중심 원리에서 DNA는 먼저 **전구 mRNA(pre-mRNA)**로 전사된다. 그런데 진핵생물의 유전자에는 단백질을 코딩하는 **엑손(Exon)**과 코딩하지 않는 **인트론(Intron)**이 뒤섞여 있다. 전사 후, 인트론을 잘라내고 엑손들을 이어 붙이는 과정이 **RNA 스플라이싱(RNA Splicing)**이다. 이 과정을 수행하는 거대한 RNA-단백질 복합체가 **스플라이소솜(Spliceosome)**이다.

여기서 조절의 마법이 등장한다. **대안적 스플라이싱(Alternative Splicing)**이다. 어떤 엑손을 포함시키고 어떤 것을 건너뛰느냐에 따라 동일한 유전자에서 다양한 mRNA가 만들어지고, 결과적으로 서로 다른 단백질들이 생산될 수 있다. 인간 유전자의 약 95% 이상이 대안적 스플라이싱을 거친다고 알려져 있다. 덕분에 인간은 약 20,000개의 단백질 코딩 유전자만으로 수십만 종류의 단백질을 만들어낼 수 있다. 유전자의 수가 단백질 다양성을 결정하는 것이 아니라, 스플라이싱이 결정한다는 뜻이다.

[노트 기록] 대안적 스플라이싱의 유형: ① Exon Skipping(엑손 건너뜀), ② Alternative 5' splice site, ③ Alternative 3' splice site, ④ Intron Retention(인트론 보유). 가장 흔한 유형은 Exon Skipping이다.

miRNA: 유전자 발현을 끄는 작은 침묵자

2006년 노벨 생리의학상은 **RNA 간섭(RNA Interference, RNAi)**을 발견한 앤드류 파이어와 크레이그 멜로에게 수여됐다. 이 발견은 작은 RNA 분자가 유전자 발현을 조절할 수 있다는 패러다임의 전환을 가져왔다.

**마이크로RNA(miRNA)**는 약 21~23개 뉴클레오타이드로 이루어진 단일 가닥 RNA로, 단백질을 코딩하지 않는다. miRNA는 핵 안에서 더 긴 전구체(pri-miRNA)로 전사된 후, Drosha라는 효소에 의해 pre-miRNA로, 세포질로 나온 뒤 Dicer라는 효소에 의해 성숙한 miRNA 이중가닥으로 처리된다. 이 중 한 가닥이 **RISC(RNA-Induced Silencing Complex)**에 로드되어, 서열이 상보적인 표적 mRNA를 찾아 결합한다. 결합 방식에 따라 표적 mRNA가 분해되거나 번역이 억제된다.

여기서 중요한 기술적 포인트가 있다. miRNA와 표적 mRNA 사이의 결합은 **완전한 상보성(Perfect Complementarity)**이 필요하지 않다. 미스매치가 있어도 번역 억제 효과는 나타날 수 있다. 그리고 miRNA의 시드 서열(Seed Sequence), 즉 5' 말단의 2~8번째 뉴클레오타이드가 표적 인식에서 가장 중요한 역할을 한다. 이 특성 때문에 하나의 miRNA가 수백 개의 서로 다른 mRNA를 동시에 조절할 수 있다. 하나의 작은 침묵자가 거대한 조절 네트워크를 통제하는 것이다. 암, 당뇨, 심혈관 질환 등 수많은 질병에서 miRNA 발현 프로파일이 변화하는 것이 관찰되며, 이를 진단 바이오마커로 활용하려는 연구가 활발히 진행 중이다.

lncRNA: 길지만 여전히 미스터리한 RNA들

**장비코딩 RNA(lncRNA, long non-coding RNA)**는 200개 뉴클레오타이드 이상의 길이를 가지면서도 단백질을 코딩하지 않는 RNA다. 인간 유전체에서 lncRNA는 단백질 코딩 유전자보다 훨씬 많은 수를 차지한다고 알려져 있으나, 그 기능은 아직 다수가 밝혀지지 않아 분자생물학의 활발한 연구 영역이다.

잘 알려진 예를 하나 들자. 여성의 세포는 X 염색체가 두 개이지만 남성은 하나다. 만약 여성이 두 개의 X 염색체에서 모든 유전자를 두 배로 발현한다면 심각한 불균형이 생긴다. 이를 막기 위해 두 개의 X 중 하나는 불활성화(X-inactivation)된다. 이 불활성화를 지휘하는 것이 바로 lncRNA인 XIST다. XIST RNA는 자신이 전사된 X 염색체를 뒤덮고, 히스톤 변형을 유도해 해당 X 염색체를 헤테로크로마틴 덩어리인 **바소체(Barr Body)**로 만들어버린다. 미스메이크업 교재에 단골로 등장하는 고양이의 삼색 털 패턴도 이 X 불활성화의 결과다. lncRNA는 이처럼 후성유전학적 조절의 스캐폴드(Scaffold) 역할을 하거나, 전사 인자의 활동을 조절하거나, 특정 게놈 구역의 3D 구조 형성에 관여하는 등 다양한 기능을 수행한다.

3부: 단백질 접힘과 프로테오믹스 — 서열에서 기능으로

단백질 접힘: 아미노산 사슬이 3D 기계로 변신하다

번역 과정을 통해 리보솜에서 튀어나온 폴리펩타이드 사슬은 아직 기능적인 단백질이 아니다. 1단계에서 배운 DNA 서열이 아미노산 서열(1차 구조, Primary Structure)을 결정한다면, 이제 그 아미노산 사슬이 어떻게 특정한 3차원 형태, 즉 **단백질 접힘(Protein Folding)**을 통해 기능을 획득하는지를 이해해야 한다.

단백질의 구조는 네 단계로 기술된다. **1차 구조(Primary Structure)**는 아미노산들의 선형 서열 자체다. **2차 구조(Secondary Structure)**는 수소 결합에 의해 지역적으로 형성되는 **α-나선(Alpha Helix)**과 **β-병풍(Beta Sheet)**이다. **3차 구조(Tertiary Structure)**는 전체 폴리펩타이드 사슬이 수소 결합, 이황화 결합, 소수성 상호작용, 이온 결합 등 다양한 분자 간 힘에 의해 접혀 만들어진 최종 3D 형태다. 그리고 여러 폴리펩타이드 서브유닛이 모인 것이 **4차 구조(Quaternary Structure)**다 (예: 헤모글로빈은 4개의 서브유닛으로 구성됨).

[노트 기록] 단백질 구조의 4단계: 1차(선형 서열) → 2차(α-helix, β-sheet) → 3차(전체 3D 형태) → 4차(다중 서브유닛 복합체). 기능은 3차 구조에서 나온다.

핵심 원리는 1972년 크리스천 앤핀슨(Christian Anfinsen)의 노벨상 수상 연구에서 확립됐다. 단백질의 최종 3D 구조는 그것의 아미노산 서열에 의해 결정된다는 것이다(앤핀슨의 도그마, Anfinsen's Dogma). 그는 리보뉴클레이스(RNase) 효소를 화학적으로 완전히 변성(Denaturation)시켜 구조를 파괴했다가 변성 조건을 제거하자 단백질이 스스로 원래의 구조와 기능을 회복하는 것을 보였다. 이 사실은 곧, 아미노산 서열 안에 이미 접힘의 '정보'가 담겨 있음을 뜻한다. 그러면 스스로 생각해보자. 만약 아미노산 서열이 구조를 결정한다면, 서열만 알면 컴퓨터로 구조를 예측할 수 있어야 하지 않을까? 이것이 50년간 생물학의 가장 어려운 문제 중 하나였던 **단백질 접힘 문제(Protein Folding Problem)**이며, 2021년 DeepMind의 AlphaFold2가 이 문제를 놀라운 정확도로 해결해 세상을 충격에 빠뜨렸다. 너는 이번 프로젝트에서 AlphaFold를 직접 사용해볼 것이다.

분자 샤페론: 혼자서 접히는 것이 항상 쉬운 일이 아니다

세포 안은 단백질들이 극도로 밀집된 환경이다. 이 환경에서 갓 합성된 폴리펩타이드는 잘못된 파트너와 들러붙어 응집체(Aggregate)를 형성하는 위험에 처한다. **분자 샤페론(Molecular Chaperone)**은 다른 단백질이 올바르게 접힐 수 있도록 돕는 단백질이다. 샤페론은 미접힘 단백질의 소수성 부위가 노출되지 않도록 차단하고, 안전한 공간을 제공해 정확한 접힘을 유도한다. 대표적인 샤페론으로는 HSP70(Heat Shock Protein 70)과 그루엘(GroEL)/그루ES(GroES) 복합체(세균) 또는 진핵생물의 TRiC/CCT 복합체가 있다.

세포가 고온 스트레스를 받으면 단백질들이 변성될 위험이 증가하는데, 이에 대응해 샤페론들의 발현이 급격히 늘어난다. 이를 **열 충격 반응(Heat Shock Response)**이라 하며, 샤페론을 **열 충격 단백질(Heat Shock Protein, HSP)**이라고도 부르는 이유가 여기 있다. 만약 샤페론의 도움에도 불구하고 단백질이 올바르게 접히지 못하면, 세포는 이 단백질을 **유비퀴틴-프로테아솜 경로(Ubiquitin-Proteasome Pathway)**를 통해 분해해버린다. 이 품질 관리(Quality Control) 시스템의 고장이 파킨슨병, 알츠하이머병 같은 **단백질 오접힘 질환(Protein Misfolding Disease)**의 원인이 된다.

프리온: 단백질이 감염성 인자가 될 때

단백질 오접힘의 가장 극적인 예는 **프리온(Prion)**이다. 정상적인 프리온 단백질(PrP^C)은 주로 α-나선 구조를 가지고 있지만, 특정 이유로 β-병풍 구조가 풍부한 비정상 형태(PrP^Sc)로 전환되면 그것이 정상 PrP^C 단백질을 만나 연쇄적으로 같은 형태로 바꾸어버린다. DNA나 RNA 없이 단백질만으로 전달되는 이 감염성 원리는 인간 광우병(vCJD)을 포함한 치명적인 신경퇴행 질환을 일으킨다. 1982년 스탠리 프루시너(Stanley Prusiner)는 이 개념을 제안해 1997년 노벨상을 받았다.

프로테오믹스: 세포의 단백질 전체를 한번에 읽다

유전체(Genome) 전체를 연구하는 것이 유전체학(Genomics)이듯, 특정 세포나 조직에서 특정 시점에 존재하는 단백질 전체를 연구하는 것이 **프로테오믹스(Proteomics)**다. 이것이 왜 필요한가? 유전자 발현이 mRNA 수준에서 완전히 설명되지 않기 때문이다. 같은 mRNA가 있어도 번역 효율, 번역 후 변형(Post-translational Modification, PTM), 단백질 분해 속도에 따라 최종 단백질의 양과 활성이 크게 달라질 수 있다. 결국 세포의 기능적 상태를 가장 직접적으로 반영하는 것은 단백질이다.

프로테오믹스의 핵심 기술은 **질량 분석법(Mass Spectrometry, MS)**이다. 단백질들을 트립신 같은 효소로 절단해 펩타이드 혼합물을 만들고, 각 펩타이드의 질량 대 전하 비(m/z)를 측정해 서열을 동정한다. **Liquid Chromatography-Tandem Mass Spectrometry(LC-MS/MS)**는 현재 가장 널리 쓰이는 방식으로, 한 번의 실험에서 수천 개의 단백질을 동시에 정량화할 수 있다. 1단계에서 배운 NGS가 유전체 서열을 대규모로 읽어낸다면, LC-MS/MS는 단백질체를 대규모로 읽어내는 도구다.

종합 기술 노트: ChIP-seq이란 무엇인가

프로젝트를 수행하기 전에 **ChIP-seq(Chromatin Immunoprecipitation followed by Sequencing)**을 이해해야 한다. 이 기술은 살아있는 세포 안에서 특정 단백질(전사 인자 또는 히스톤 변형)이 게놈의 어느 위치에 결합해 있는지를 전 게놈적으로 파악하는 방법이다. 과정을 간략히 설명하면 다음과 같다. 먼저 세포를 포름알데히드로 처리해 DNA와 그것에 결합한 단백질을 가교(Cross-link)한다. 다음으로 크로마틴을 초음파로 잘게 부순다. 그런 다음 관심 있는 단백질에 특이적으로 결합하는 항체를 이용해 그 단백질-DNA 복합체를 선택적으로 침전시킨다(Immunoprecipitation). 가교를 역전시키고 DNA를 정제한 뒤, NGS로 시퀀싱하면 그 단백질이 게놈의 어느 위치에 얼마나 많이 결합했는지 전체 지도를 얻을 수 있다. 히스톤 메틸화 마커를 타겟으로 ChIP-seq을 수행하면, 특정 세포에서 활성화된 유전자와 침묵된 유전자의 후성유전학적 지형을 그릴 수 있다. 이것이 오늘의 프로젝트 분석 과제의 배경이다.

프로젝트: 문제 탐구 세션

아래의 프로젝트들은 정답이 제공되지 않는다. 각 문제 앞에 시간을 두고 깊이 생각해라. 틀려도 좋다. 생각의 과정이 중요하다.

Project A — 메틸화 데이터 해석: 암 조기진단 마커를 찾아라 (약 15분)

다음은 정상 대장 세포와 대장암 세포에서 측정한 세 유전자 프로모터 CpG 아일랜드의 메틸화 수준(0~100%, 높을수록 과메틸화)과 유전자 발현 수준(RNA-seq RPKM 값)이다.

유전자	기능	정상 세포 메틸화	암세포 메틸화	정상 발현(RPKM)	암세포 발현(RPKM)
MLH1	DNA 미스매치 수선	5%	82%	45.3	2.1
KRAS	세포 증식 신호(원종양유전자)	78%	8%	3.2	67.4
CDKN2A(p16)	세포 주기 억제	3%	91%	38.7	0.9

문제 A-1. 이 데이터를 바탕으로, 이론 파트에서 배운 메틸화와 유전자 발현의 관계가 세 유전자 모두에서 일관되게 성립하는지 논리적으로 분석하라. 예외가 있다면 왜 그런지, 그리고 그것이 생물학적으로 어떤 의미인지 설명하라.

문제 A-2. MLH1이 침묵되면 DNA 복제 시 발생하는 미스매치 오류가 수정되지 않는다. 1단계에서 배운 DNA 복제 오류 수선 메커니즘과 연결해서, MLH1 침묵이 왜 암 발생의 가속 페달이 되는지 분자 수준에서 설명하라.

문제 A-3. 이 세 유전자 중 혈액 검사로 암을 조기 진단하기 위한 메틸화 바이오마커로 가장 적합한 유전자를 하나 선택하고, 그 이유를 다음 기준에 따라 논증하라: ① 정상 조직과 암 조직 간의 메틸화 차이(Delta)가 크고 ② 정상 조직에서 기저 메틸화가 낮아 위양성(False Positive)이 적을 것.

Project B — ChIP-seq 피크 분석: 활성 유전자의 히스톤 코드를 읽어라 (약 10분)

아래는 배아줄기세포(ESC)에서 H3K4me3(활성 표지)와 H3K27me3(억제 표지)를 이용한 ChIP-seq 피크 데이터의 일부다.

게놈 위치	H3K4me3 피크 강도	H3K27me3 피크 강도	해당 유전자	세포 유형
chr6:52,000,000	높음	없음	SOX2 (줄기세포 전사인자)	ESC
chr6:52,000,000	없음	높음	SOX2	분화된 피부 세포
chr17:7,668,000	높음	없음	TP53 (종양 억제 인자)	ESC
chr17:7,668,000	높음	없음	TP53	분화된 피부 세포
chr4:5,000,000	높음	높음	HOXA (발생 조절 인자)	ESC

문제 B-1. SOX2 유전자의 두 세포 유형 간 ChIP-seq 패턴 변화를 히스톤 코드 언어로 해석하고, 이것이 세포 분화(Differentiation)라는 생물학적 사건과 어떻게 연결되는지 설명하라.

문제 B-2. HOXA 유전자에 H3K4me3와 H3K27me3가 동시에 나타나는 현상을 **이중 표지(Bivalent Chromatin)**라 한다. 이 상태의 유전자는 어떤 잠재적 특성을 가질 것이라고 예측되는가? 이것이 배아줄기세포가 가진 다능성(Pluripotency)과 어떤 연관이 있을지 논리적으로 추론하라.

Project C — AlphaFold 구조 예측 해석: 단백질 구조에서 기능을 추론하라 (약 15분)

AlphaFold2에서 예측된 인간 p53 단백질(TP53 유전자가 코딩)의 구조를 분석한다고 가정하자. p53은 세포 스트레스 시 세포 주기를 멈추고 DNA 수선을 촉진하거나 아폽토시스(Apoptosis, 세포 사멸)를 유도하는 핵심 종양 억제 단백질이다.

다음 정보가 주어진다.

p53 단백질의 DNA 결합 도메인(DBD)은 다수의 β-병풍 구조가 Zn²⁺ 이온을 중심으로 짜여진 복잡한 접힘 구조를 갖는다.
암에서 발생하는 p53 돌연변이의 60% 이상이 이 DBD 도메인에 집중된다.
가장 흔한 돌연변이 중 하나는 248번 아르기닌(Arg248)이 트립토판(Trp248) 또는 글루타민(Gln248)으로 치환되는 것이다.
Arg248은 DNA의 마이너 그루브(Minor Groove)와 직접적인 수소 결합을 형성한다고 알려져 있다.

문제 C-1. 1단계에서 배운 아미노산의 화학적 성질을 떠올려라(혹은 추론하라). 아르기닌(Arg)은 양전하를 띠는 측쇄를 가지며, 트립토판(Trp)과 글루타민(Gln)은 그렇지 않다. 이 정보를 바탕으로 R248W(Arg→Trp) 돌연변이가 p53의 DNA 결합 능력에 어떤 영향을 미칠지, 분자 수준의 메커니즘으로 설명하라.

문제 C-2. p53이 기능을 잃으면 B 프로젝트의 Project A에서 분석한 MLH1 과메틸화와는 다른 경로로 암이 발생한다. p53 경로가 차단될 때, 세포가 DNA 손상을 입어도 죽지 않고 증식을 계속할 수 있는 이유를 'p53의 정상 기능 → 돌연변이 시 결과'의 논리적 흐름으로 서술하라.

문제 C-3. 만약 AlphaFold가 예측한 특정 신규 단백질 구조에서, 기존에 알려진 다른 효소의 활성 부위(Active Site) 구조와 유사한 3D 형태를 발견했다고 가정하자. 아미노산 서열은 전혀 다름에도 불구하고 3D 구조가 유사한 이 현상을 **수렴 진화(Convergent Evolution)**라 한다. 이것이 단백질 기능 예측에 어떤 실용적 의미를 갖는지 논술하라.

평가 기준 안내

이 프로젝트는 아래의 배점으로 평가된다.

후성유전학 퀴즈: Project A와 B 문제들에 대한 개념적 정확도 (40점)
데이터 분석: 데이터에서 패턴을 추출하고 생물학적으로 해석하는 논리의 정교함 (40점)
리포트: Project C를 중심으로 구조-기능 관계를 체계적으로 정리한 서면 보고서 (20점)

정답을 외우려 하지 말고, 이 글에서 배운 원리들이 서로 어떻게 연결되는지를 끊임없이 물어가며 답을 구성해라. 전사 조절, 후성유전학, 비코딩 RNA, 단백질 접힘은 각각 독립된 주제가 아니라 하나의 세포 안에서 동시에 작동하며 서로 영향을 주는 하나의 시스템이다. 그 시스템의 논리를 이해하는 것이 이번 단계의 진짜 목표다.