공공바이오 데이터베이스 - 유전체 데이터베이스

Notice

Recent Posts

Recent Comments

Link

« 2026/04 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

biotechknowledge

공공바이오 데이터베이스 - 유전체 데이터베이스 본문

bioinformatics

공공바이오 데이터베이스 - 유전체 데이터베이스

준2준2 2025. 9. 6. 11:40

유전체 개요

체학(-ome):

분자들이나 세포 등과 같이 어던 대상의 집합체 전부

Seq:

시퀀싱(sequencing) 기술로 생산된 데이터

DNA서열의 퀄리티

모든 시퀀싱은 DNA 염기, 각 여기의 오류(정확도) 확률 정보 생산

DNA 데이터베이스 : GenBank

미국의 NCBI의 DNA 서열 공개 데이터베이스

주석이 된 핵사 서열(핵산에서 유래된 단백질 서열 포함)

현재 약 50만 생물종 이상에서 유래된 핵산 서열을 보유하고 있음 (1차 DB)

생물종, 기능, 연구분야 등으로 구분된 21개 division 으로 구성

GI Number('gi') :

NCBI 가 자체적으로 각 서열에 대해서 연속적으로 부여하는 번호('GenInfoNumber')

'Accession.Version number' :

1999년부터 INSDC에 의해서 공식적으로 발행하는 서열의 등록번호

DNA 데이터베이스 : SRA 개요

High-throughput sequencing의 공개 데이터베이스 (1차데이터베이스)

대부분 jornal에서 NGS데이터를 SRA에 저장하도록 함

DNA 데이터베이스 : dbSNP

sbSNP 핵산변이(nucleotide variation) 데이터베이스 (1차 데이터베이스)

SNP 뿐만 아니라 small INDEL, microsatellite, short tandem repeat 등

핵산 변이 정보, 5' 및 3' flanking sequence, 유전자형(genotype), 빈도(frequency)를 포함

새롭게 발견된 SNp 가 dbSNP에 전달되면 ssID 부여, ss#가 큐레이션 후 최종적으로 확인되면 rsID를 부여

같은 위치에 여러 개의 ssID가 있을 수 있지만, rsID는 한개만 존재

바이오 빅데이터의 무결성 검사

데이터 무결성:

데이터가 우연하게 또는 의도적으로 변경되거나 파괴되는 상황에 노출되지 않고 보존되는 특성

데이터의 정확성과 일관성을 유지하고 보증하는 것을 가리키며 데이터베이스나 RDBMS 시스템의 중요한 기능

데이터 무결성 확인 : MD5 checksum

전체 데이터를 512 bits 단위(message block)으로 나누어 hash 값을 구한다.

1 bit 만 차이가 나도 hash 값이 전혀 다른 값이 된다.

'bioinformatics' 카테고리의 다른 글

공공바이오 데이터베이스 - 전사체 데이터베이스 (0)	2025.09.06
공공 바이오 데이터베이스 - 바이오 데이터 소개 (0)	2025.08.21
[NGS]SAM/BAM ~ align ~ tablet/VCF format (0)	2025.05.10
[NGS]Fastq 전처리 방법과 소프트웨어 (1)	2025.05.08
FASTQ format 개념, NCBI 데이터 다운로드 하는 방법 (0)	2025.05.07

'bioinformatics' Related Articles

biotechknowledge

공공바이오 데이터베이스 - 유전체 데이터베이스 본문

공공바이오 데이터베이스 - 유전체 데이터베이스

'bioinformatics' 카테고리의 다른 글

티스토리툴바