현재 난리났다는 인간 유전자 발현 예측모델 근황

현재 난리났다는 인간 유전자 발현 예측모델 근황

 
 
 
 
 
 
 
전사조절 (유전자 발현) 은 우리 모든 생물학에서 중요함
 
근데 이 중요한게 너무 복잡해서 많이 밝히지 못함
 
또 기존 모델들은 특정 유형의 세포나 조건에 국한되어서 
 
범용적으로 사용하기엔 무리가 있음
 
 
 
 
 
 
 


 
 
 

 
 
그래서 만든게 GET  모델
 
일단 213개 인간 세포 유형의 scATAC-seq 데이터에서 추출한 염색질 접근성 및 TF 결합 부위 정보와
 
2Mbp 이상의 genomic locus 를 입력후
 
무작위로 마스킹 된 영역에서 motif 결합 점수 및 접근성 점수를 예측하도록 학습시켰음
 
 
 
 
 
 
 
 
 

 
이후 미세 조정은 scATAC-seq와 RNA-seq 데이터가 쌍으로 존재하는 153개 세포 유형 데이터를 사용하여, PolII가 염색질 환경을 읽어 유전자 발현을 조절하는 과정을 모방하도록 학습함
 
그랬더니 유전자 발현 예측을 잘함
 
 
 
 
 
 
 
 
 

 
학습에 사용되지 않은 세포 유형에서도 유전자 발현을 엄청난 정확도로 예측함
 
Pearson correlation 0.94, R2 0.88, unseen fetal astrocytes
 
대략 90%이상의 예측을 함
 
이는 다양한 세포유형에 대한 유전자 발현 예측을 할 수 있다는 소리
 
 
 
 
또한 태아 데이터로만 학습했음에도 성인 세포 유형의 유전자 발현을 정확하게 예측가능
 
다양한 시퀀싱 플랫폼과 분석법에 적용가능
 
제로샷(Zero-shot) 예측도 가능
학습없이 규제요소의 활성화를 예측했는데 기존 분석기 Enformer보다 정확함
 
 
 
 
 
 



 
 
 
 
 
 
결론
 
Transformer 기반의 범용 전사 조절 모델을 개발하고, 
self-supervised pretraining, fine-tuning, model interpretation, causal discovery, AlphaFold2 연계 
 
등 최신 기술을 융합하여, 
 
 
“전사 조절 연구의 새로운 지평”을 열었음
 
 
 
 
요약
 
여태 어려워했던 전사 조절의 기본 원리를 이해하고, 
 
질병 메커니즘을 규명하는 데 중요한 기여를 할 것으로 기대됨
 
또한 
 
이미 얘를 가지고
 
소아 백혈병의 새로운 발병기전 발견,
태아 헤모글로빈 조절기전 규명,
TF 상호작용 네트워크 구축에 성공했음
 
 
 


이 게시글에 달린 댓글 총 0
제목
이벤트
글이 없습니다.
레벨 랭킹
포인트 랭킹