biotechknowledge

[NGS]Fastq 전처리 방법과 소프트웨어 본문

bioinformatics

[NGS]Fastq 전처리 방법과 소프트웨어

준2준2 2025. 5. 8. 18:34

 

FastQC

https://www.bioinformatics.babraham.ac.uk/index.html

 

Babraham Bioinformatics

Welcome to Babraham Bioinformatics This is the homepage of the Bioinformatics Group at the Babraham Institute. We provide bioinformatics services to the 30 research groups which form the institute as well as providing an external commercial consultancy ser

www.bioinformatics.babraham.ac.uk

Fastq파일의 read들의 염기와 퀄리티점수를 시각화 해준다.

 

 

ngs ShoRT

https://research.bioinformatics.udel.edu/genomics/ngsShoRT/documentation.html

 

A Next Generation Sequencing Short Read Trimmer - Documentation

 

research.bioinformatics.udel.edu

FastQC로 read를 trimming 등의 전처리 작업을 하는 리눅스 패키지

 

가장 일반적으로 쓰이는 trimming method는 lqr_5adpt_tera 이고 위 홈페이지의 document 에 자세한 설명 확인할 수 있다.

일반적인 일루미나의 어댑터는 forward, reverse read 를 구분할 수 없다. paired-end sequence에서 한 가닥만 통과된 경우, surviving_SE_mates.fastq 에 저장되고 저장된 가닥은 forward 인지 reverse 인지 알 수 없다. ngs ShoRT는 한 가닥만 통과되면 pair 되는 가닥도 같이 제거해준다. 5adpt는 사용자가 지정하지 않으면 일루미나 표준 adaptor 을 이용한다.

 

 

 

K-12 표준 대장균 균주에서 유전자 조작을 가한 MT203 균주가 있다. MT203의 read를 K-12 reference에 align 시키면 위 그림과 같이 나타낼 수 있다. 보존되어 있는 파란색 부분과 결실(흰색)됐거나, 획득한 서열(노랑)이 있다. 여러세대 배양을 거치면 자연적인 돌연변이가 생길 수 있다. ex) 위 그림 A → G

 

염기서열을 표준게놈(reference) 와 비교하는데는 주로 BLAST를 이용하지만 BLAST는 자연적인 돌연변이와 같은 작은 변화도 포착하도록 설계되어 있기때문에 시퀀싱 에러, 개체간 차이를 고려할 수 있는 BWA(Burrows-Wheeler Alignment) 를 이용한다.

 

BWA(Burrows-Wheeler Alignment)

https://bio-bwa.sourceforge.net/

 

Burrows-Wheeler Aligner

Introduction BWA is a software package for mapping low-divergent sequences against a large reference genome, such as the human genome. It consists of three algorithms: BWA-backtrack, BWA-SW and BWA-MEM. The first algorithm is designed for Illumina sequence

bio-bwa.sourceforge.net

bwa 최신판을 설치하면 중간에 에러가 뜨면서 bwa 가 올바르게 설치되지 않는다. 개발자가 2017년을 마지막으로 업데이트를 멈췄다. 너무 오래된 버전이라 현재 C,C++ 버전과 호환성 문제가 생겨서 스크립트 한 줄을 수정해줘야 한다. 아래 링크에서 확인할 수 있다.

 

https://www.biostars.org/p/9521965/

 

bwa 0.7.18 download to fix compile fail with GCC 10

bwa 0.7.18 download to fix compile fail with GCC 10 1 Is there a download for this, I can not seem to find one? I am building a docker with bwa 0.7.17 and it is failing to compile multiple definition of `rle_auxtab", which I think has been addressed. Thank

www.biostars.org

nano 에디터로 rle.h 에 들어가서 33번 line 의 단어 하나만 수정하고 다시 make 명령어를 입력하면 올바르게 컴파일 된다.

 

NCBI 홈페이지 genome 탭에서 필요한 reference genome 을 다운받는다. 예시로 사용한 Genome assembly ASM584v2 은 e coli의 유전체로 한 가닥의 원형 DNA를 갖는다. fasta 의 확장자는 .fna이다. 컴퓨터가 표준게놈에 접근,검색의 효율을 높이기 위해 인덱싱을 한다. 그 다음, bwa mem 명령어로 mappnig 한다. bwa 결과로 sam 형식의 aglinment 결과파일을 얻는다.