본문 바로가기

bioinformatics

생명정보개론(bioinformatics) - Genebank,SNP 유전자 검색

이 포스트는 K-MOOC 의 생명정보개론 강의를 들으며 정리한 것으로 공부하면서 생겼던 의문점을 함께 정리하였습니다.

 

예시 논문과 유전자 X-linked inhibitor of apoptosis(XIAP), related information 에서 유전자와 SNP 정보를 찾을 수 있다.

 

NCBI 에서 XIAP를 검색해보자.

 

검색결과
나머지 항목들은 읽어보면 알 수 있으니 생략. Ensembl, MIM, AllianceGenome 각각 데이터 베이스.

Location : X 염색체 q25번 위치에 존재

Exon count : 이 유전자가 전사되고 스플라이싱 과정을 거친 후, 10개의 엑손이 포함된 mRNA가 생성됨.

Annotation release 와 Assembly의 관계

각 Annotation release는 특정 Assembly 버전을 기준으로 유전자의 위치를 설명한다. 예를 들어 Rs_2023_10이라는 주석은 GRCh38.p14 및 T2T-CHM13v2.0을 기준으로 하고 있으며, 이전 주석 데이터(105.20220307)는 GRCh37.p13을 기준으로 한다.

reference 버전을 고를 수 있다. reference는 계속 업데이트 되기 때문에 오래된 논문으로 공부할때 위치가 다르다면 버전을 확인해보자.

 

초록색바 에 마우스를 올리면 XIAP 유전자 GenBank로 연결되는 링크가 있다.

 

이 유전자의 대한 정보를 알 수 있다. 54265bp, coding region, whole nucleotide
5만여개의 염기 중 SNP가 일어난 123886270 위치를 직접 확인해보자. SNP reference 는 rs387907301

 

GeneBank에서 해당 위치를 검색 (오른쪽 박스)
1bp 가 검색되었다. FASTA에서 해당 염기를 확인하면

 

1개의 염기의 정체는 G
SNP descript 에 나온 G>A 와 일치한다.

 

Exon 과 Coding Sequence(CDS) 의 개념

Exon은 유전자의 부분으로, 단백질을 암호화하는 데 사용되는 서열이다. 유전자가 전사되면, 엑손과 인트론 모두 pre-mRNA로 전사되고, 이후 스플리아싱 과정에서 인트론이 제거되고, 엑손만이 결합하여 최종 mRNA를 형성한다.

CDS는 유전자 내에서 엑손에 해당하는 부분 중에서 실제로 단백질을 암호화하는 서열.