일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- single cell rna sequening
- bcftools
- 주식
- 오블완
- Preprocessing
- np.trace
- 후기
- fastqc
- Python
- 대학생주식
- scRNASeq
- NGS
- 주식투자
- np.flatten
- 티스토리챌린지
- Tutorial
- 통계학
- numpy
- 선형대수
- single cell rna sequencing
- R
- bioinformatics
- scanpy
- np.diagflat
- np.triu
- 대학원
- Next Generation Sequencing
- 대학생재테크
- liver
- ngs short
- Today
- Total
biotechknowledge
[NGS]SAM/BAM ~ align ~ tablet/VCF format 본문
sam file document 는 구글에 sequence alignment map format specification 검색하면 쉽게 찾을 수 있다.
sam 파일의 각 열에 대한 설명이다. 10,11은 염기와 퀄리티 점수를 갖고 있으므로 반대로 fastq 파일을 만들 수 있다.
FLAG는 SAM/BAM 파일에서 각 read의 alignment(정렬) 상태를 2진수 비트(bit)로 정의하고 십진수로 변환한다. 여러가지 상태인 경우 모두 합산한 값으로 구한다. 합산값은 고유하다. samtools를 이용하면 FLAG로 리드가 어떤 상태와 특성을 갖는지 확인할 수 있다.
Samtools
Samtools
Samtools Samtools is a suite of programs for interacting with high-throughput sequencing data. It consists of three separate repositories: Samtools Reading/writing/editing/indexing/viewing SAM/BAM/CRAM format BCFtools Reading/writing BCF2/VCF/gVCF files an
www.htslib.org
samtools view : sam을 bam 파일로 변환가능
bam file은 binary file 이다. bam file을 읽을필요가 있을 때는 sam으로 바꾸거나 view 를 이용해서 볼 수 있다.
samtools sort : bam file을 reference genome 의 위치에 따라서 재정렬 한다. 원래는 read 순서대로 정렬되어있는데 genome 특정 위치에 있는 read를 찾기가 어렵기 때문에 재정렬이 필요하다. sorting 된 file로 samtools index 를 해준다.
Tablet
https://ics.hutton.ac.uk/tablet/download-tablet/
Download Tablet : Information & Computational Sciences
Download Tablet The most recent release of Tablet is 1.21.02.08 (8th February 2021). View the release notes to see what’s new. Tablet uses the BSD 2-Clause License. Windows and macOS installers are digitally signed by The James Hutton Institute (checksu
ics.hutton.ac.uk
read alignment 를 시각적으로 확인하는 패키지
GFF 파일(염색체위 유전자가 주석처리 되어있음)도 시각화해서 볼 수 있다.
VCF(Variant Calling Format)
read를 참조유전체와 비교하여 다른 부분을 찾아내는 것을 varient calling이라 한다. varient calling 은 haploid, dipoloid 같은 방식을 사용한다. heterozygote 와 homozygote를 확률적으로 계산한다. 어느 한 위치의 염기를 결정하기 위해 read의 그 위치에 퀄리티점수와 각 염기(read)별 개수를 고려한다. 퀄리티가 낮고 read 가 적으면 가능성을 확률은 낮아지는 방식이다.
특정 genome 좌표의 유전형을 알기 위해서는, 좌표 위치를 지나는 모든 read의 서열을 모아서 판단을 해야 하므로 genome 전체적으로 실시하여야 한다. 하지만 read 별로 한 행씩 나열되어 있는 SAM/BAM 형식은 전체적인 유전형을 찾는 작업에서는 적합하지 않다. Genome 좌표를 축으로 놓고 해당 좌표에 mapping 되는 read 의 서열을 한 행에 모두 나타내는 형식이 더 적합하다.(VCF format) 이러한 형식으로 변환 시켜주는 프로그램은 bcftools 의 mpileup 이다. mpileup 에 sorted BAM file과 refernece genome 을 input으로 넣는다.
https://www.htslib.org/download/
SAMtools/BCFtools/HTSlib - Downloads
Current releases SAMtools and BCFtools are distributed as individual packages. The code uses HTSlib internally, but these source packages contain their own copies of htslib so they can be built independently. HTSlib is also distributed as a separate packag
www.htslib.org
'bioinformatics' 카테고리의 다른 글
[NGS]Fastq 전처리 방법과 소프트웨어 (1) | 2025.05.08 |
---|---|
FASTQ format 개념, NCBI 데이터 다운로드 하는 방법 (0) | 2025.05.07 |
NGS(next generation sequencing) platform 종류와 본질 (0) | 2025.05.07 |
Scanpy tutorials - data integration, injest 코드 개념 설명 (0) | 2024.12.21 |
Scanpy tutorials - preprocessing and clustering ( Re-assess quality control and cell filtering ,Differentially-expressed Genes as Markers) tutorial 코드 설명 (0) | 2024.11.14 |