biotechknowledge

공공바이오 데이터베이스 - 유전체 데이터베이스 본문

bioinformatics

공공바이오 데이터베이스 - 유전체 데이터베이스

준2준2 2025. 9. 6. 11:40

유전체 개요

체학(-ome):

분자들이나 세포 등과 같이 어던 대상의 집합체 전부

Seq:

시퀀싱(sequencing) 기술로 생산된 데이터 

 

DNA서열의 퀄리티

모든 시퀀싱은 DNA 염기, 각 여기의 오류(정확도) 확률 정보 생산

 

퀄리티 점수가 높을수록 좋은 것

 

DNA 데이터베이스 : GenBank

미국의 NCBI의 DNA 서열 공개 데이터베이스

주석이 된 핵사 서열(핵산에서 유래된 단백질 서열 포함)

현재 약 50만 생물종 이상에서 유래된 핵산 서열을 보유하고 있음 (1차 DB)

생물종, 기능, 연구분야 등으로 구분된 21개 division 으로 구성

 

Genbank format

GI Number('gi') :

NCBI 가 자체적으로 각 서열에 대해서 연속적으로 부여하는 번호('GenInfoNumber')

'Accession.Version number' :

1999년부터 INSDC에 의해서 공식적으로 발행하는 서열의 등록번호

 

DNA 데이터베이스 : SRA 개요

High-throughput sequencing의 공개 데이터베이스 (1차데이터베이스)

대부분 jornal에서 NGS데이터를 SRA에 저장하도록 함

SRA file format

 

DNA 데이터베이스 : dbSNP

sbSNP 핵산변이(nucleotide variation) 데이터베이스 (1차 데이터베이스)

SNP 뿐만 아니라 small INDEL, microsatellite, short tandem repeat 등

핵산 변이 정보, 5' 및 3' flanking sequence, 유전자형(genotype), 빈도(frequency)를 포함

새롭게 발견된 SNp 가 dbSNP에 전달되면 ssID 부여, ss#가 큐레이션 후 최종적으로 확인되면 rsID를 부여

같은 위치에 여러 개의 ssID가 있을 수 있지만, rsID는 한개만 존재

 

바이오 빅데이터의 무결성 검사

데이터 무결성:

데이터가 우연하게 또는 의도적으로 변경되거나 파괴되는 상황에 노출되지 않고 보존되는 특성

데이터의 정확성과 일관성을 유지하고 보증하는 것을 가리키며 데이터베이스나 RDBMS 시스템의 중요한 기능

 

데이터 무결성 확인 : MD5 checksum

전체 데이터를 512 bits 단위(message block)으로 나누어 hash 값을 구한다.

1 bit 만 차이가 나도 hash 값이 전혀 다른 값이 된다.