본문 바로가기

bioinformatics

생명정보개론(Bioinformatics)- NGS개념, 분석원리

이 포스트는 K-MOOC 의 생명정보개론 강의를 들으며 정리한 것으로 공부하면서 생겼던 의문점을 함께 정리하였습니다.

 

 

생명정보학의 이용

-난치병의 치료하는데 생명정보학(차세대 염기서열 분석법)의 도움을 받을 수 있다.

-Nic Volker 어린이의 난치병을 진단하기 위해 생명정보기술이 사용되었다.

-수천개의 염기서열 중 단 하나의 염기치환을 발견하여 병명을 특정하고 올바른 치료를 받을 수 있었다.

 

문헌 데이터베이스

-Pubmed 와 Google Scholar 를 사용한다.

-Google Scholar 본문내용까지 검색가능, 인용횟수와 인용논문을 확인할 수 있다.

 

차세대 염기서열 시퀀싱(Next Generation Sequencing)

what is Exon?

-인간의 DNA는 30억개의 염기쌍으로 되어있다. 그 중 의미를 단백질을 코딩하는 유전자는 20,000개 이며 각 유전자는 약 10개의 엑손으로 이루어져 있다. 즉, 유전자는 총 200,000개의 엑손으로 되어 있는 것이다.

-인간의 20,000개의 유전자 서열은 밝혀져 있다.

-유전질환을 가진 환자의 유전자 서열 20,000를 분석하여 기존에 알려진 서열과 비교하여 어느 부분에서 변이가 발생하였는지 비교 분석 할 수 있다.

-유전서열을 분석하는 방법(NGS) 중에는 Array 방식과 Bead를 이용한 방식이 있다.

Array capture and bead capture

 

 

Roche NGS animation 

https://www.youtube.com/watch?v=bFNjxKHP8Jc&t=6s

 

NGS 분석 원리

쉽게 보기 위해 A,T,G,C 를 사람얼굴과 cash로 치환하여 설명하는 그림 캡쳐. 출처:https://www.youtube.com/watch?v=5VClehvKVw4&t=59s
실제 소프트웨어 분석 화면 출처:https://www.thermofisher.com/kr/ko/home/life-science/cloning/cloning-learning-center/invitrogen-school-of-molecular-biology/next-generation-sequencing/ngs-data-analysis-illumina.html#considerations

 

Q. 하나의 DNA에 여러개의 Read가 어떻게 붙을 수 있는가?

A. 위에 일러스트는 하나의 DNA에 물리적으로 동일한 위치에 여러 리드가 동시에 결합한다는 의미가 아니라, 같은 위치에 해당하는 여러 리드가 독립적으로 정렬된다는 뜻이다. NGS에서 얻어진 짧은 서열 조각(리드)은 컴퓨터 알고리즘에 의해 reference genome과 비교되어 가장 잘 맞는 위치에 "정렬"된다. 이 과정은 실제 물리적인 결합이 아닌, 컴퓨터 시뮬레이션을 통해 이루어진다.

 

*커버리지(coverage)의 개념

커버리지는 특정 위치에 정렬된 리드의 수를 의미한다. 높은 커버리지를 가지면, 해당 위치에 많은 리드가 정렬된 것이며, 이를 통해 더 정확하게 염기 서열을 확인하거나 변이를 검출할 수 있다. 

 

 

Q. 인간의 exon은 99%가 동일하다. intron은 어떤가?

A. exon은 유전자 기능과 단백질 구조에 직접적으로 영향을 미치는 데 비해, intron은 더 많은 변이를 허용할 수 있으며, 인간 사이에서 더 많은 유전적 다양성을 나타낼 수 있다.

 

Data columns for Variant identification, validation and annotation

1)Novelty (based on dbSNP) - SNP database 에 있는 변이인가?

2)Depth of coverage - 얼마나 많은 read에서 변이가 발견되는가?

3)Quality score - 염기 서열의 길이, 샘플의 품질 , 시퀀싱 기계 등을 고려하여 데이터의 신뢰도를 판단하는 지표

4)Amino acid physiochemical properties - 돌연변이가 일어났을때 아미노산이 바뀌는가?

5)Class of change - 아미노산이 바뀐 경우라면 charge가 바뀌는가?
6)Phylogenetic conservation - 다른 종들과 비교했을 때 얼마나 많은 종에서 같은서열이 보존되어 있는가?

7)Genic or genomic location - 몇번 염색체에 있는지?

8)Zygosity - Homozygous or Heterozygous or Hemizygous

 

Q. NGS기법에서 zygosity를 확인하는 의의는?

A. 열성 유전 질환, 우성 유전 질환 zygosity 분석을 통해 열성 유전 질환의 발병 가능성을 평가할 수 있다. zygosity에 따라 다른 약물 반응성을 보이는 경우도 있다. 결론적으로 개인의 유전적 변이 분석, 유전 질환 진단, 맞춤 의학, 조양 분석, 유전자 상속 패턴 분석에 중요한 역할 을 한다.