| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- fastqc
- 대학생주식
- 오블완
- Preprocessing
- liver
- Python
- 주식투자
- single cell rna sequencing
- scRNASeq
- 통계학
- 후기
- 대학생재테크
- 주식
- 고공 바이오 데이터베이스
- np.diagflat
- R
- scanpy
- 공공바이오데이터베이스
- NGS
- Next Generation Sequencing
- 데이터베이스 소개
- numpy
- 유전체데이터베이스
- 선형대수
- bioinformatics
- ngs short
- bcftools
- 티스토리챌린지
- 대학원
- Tutorial
- Today
- Total
목록bioinformatics (16)
biotechknowledge
전사체(transcriptome) 이란?세포가 가지고 있는 trnscript 의 전체유전자 발현(Gene expression)DNA > RNA > protein최종적으로 생산된 단백질 확인이 필수지만, 측정 기술의 부족으로 세포내의 mRNA의 양으로 대신 측정함.어떤 특정 시점에 cell population 에서 발현되는 수천개의 유전자(gene)을 동시에 정량화하는 것.이를 통해, cell population에서 global gene expression의 pattern을 알 수 있음.이러한 pattern을 gene expression profile 이라고 함. 측정 방법.1. RT-qPCR(qPCR)2. Microarray3. RNA seq4. scRNAseq5. spatial RNA seq 1. PC..
유전체 개요체학(-ome):분자들이나 세포 등과 같이 어던 대상의 집합체 전부Seq:시퀀싱(sequencing) 기술로 생산된 데이터 DNA서열의 퀄리티모든 시퀀싱은 DNA 염기, 각 여기의 오류(정확도) 확률 정보 생산 DNA 데이터베이스 : GenBank미국의 NCBI의 DNA 서열 공개 데이터베이스주석이 된 핵사 서열(핵산에서 유래된 단백질 서열 포함)현재 약 50만 생물종 이상에서 유래된 핵산 서열을 보유하고 있음 (1차 DB)생물종, 기능, 연구분야 등으로 구분된 21개 division 으로 구성 GI Number('gi') :NCBI 가 자체적으로 각 서열에 대해서 연속적으로 부여하는 번호('GenInfoNumber')'Accession.Version number' :1999년부터 INSD..
데이터와 정보데이터(data):현실 세계에서 관찰이나 측정을 통해 수집된 사실(facts) 또는 값(value)연구 데이터(research data):R&D 과정에서 실시하는 각종 실험, 관찰, 조사 및 분석 등을 통하여 산출된 사실 자료 정보(information):데이터를 처리하여 얻을 수 있는결과데이터 → ( 정보 → 지식 → 지혜 ) 넓은 의미의 정보 raw data 와 meta dataraw data:실험 등을 통해서 직접 생산되는 데이터 ex) fasta, fastq, DICOM, TIFF 등meta data:실데이터를 설명하는 데이터 ex) 데이터 생산자 정보, 생물명, 샘플정보, 실험정보 등메타데이터는 표준양식(format)이 존재함.ex) SRA, GeneBank, GEO 등 1차 데이터..
sam file document 는 구글에 sequence alignment map format specification 검색하면 쉽게 찾을 수 있다.sam 파일의 각 열에 대한 설명이다. 10,11은 염기와 퀄리티 점수를 갖고 있으므로 반대로 fastq 파일을 만들 수 있다. FLAG는 SAM/BAM 파일에서 각 read의 alignment(정렬) 상태를 2진수 비트(bit)로 정의하고 십진수로 변환한다. 여러가지 상태인 경우 모두 합산한 값으로 구한다. 합산값은 고유하다. samtools를 이용하면 FLAG로 리드가 어떤 상태와 특성을 갖는지 확인할 수 있다. Samtoolshttps://www.htslib.org/ SamtoolsSamtools Samtools is a suite of program..
FastQChttps://www.bioinformatics.babraham.ac.uk/index.html Babraham BioinformaticsWelcome to Babraham Bioinformatics This is the homepage of the Bioinformatics Group at the Babraham Institute. We provide bioinformatics services to the 30 research groups which form the institute as well as providing an external commercial consultancy serwww.bioinformatics.babraham.ac.ukFastq파일의 read들의 염기와 퀄리티점수를 ..
FASTQ FASTQ 는 sequencing read 를 저장하는 포맷이다. 시퀀싱 플랫폼에서 데이터를 얻으면 binary file로 저장한다. 플랫폼마다 제공하는 소프트웨어를 이용하여 FASTQ로 변환할 수 있다. FASTQ 파일은 헤더(등록번호, spot 번호,장비 등의 메타데이터), 염기, 퀄리티점수로 이루어져 있다. 논문에 출판하기 위해서는 FASTQ 파일을 공공데이터 베이스에 업로드 해야한다. NCBI, EBI, DDBJ 3 기관의 공공데이터베이스가 있고 기관마다 고유의 등록번호 SRR, ERR, DRR을 부여한다. FASTA file은 NGS 이전에 sanger sequencing 파일을 저장하던 형식이다. 제일 처음 @로 시작하는 부분이 헤더로 메타이데이터를 포함하고 2번째줄이 염기정보 제..
NGS 은 기본적으로 DNA 가닥의 염기를 읽는 것을 말한다. 다양한 회사에서 각자의 기술을 바탕으로 플랫폼을 개발하고 있고 현재 시장을 지배하고 있는 방식은 Illumina 의 solexa이다. DNA염기가 합성될 때 형광을 읽는 방식을 사용하는 방식이고 oxford사 처럼 물리적인 방식을 사용하기도 한다. 중요한 점은, 방식의 차이일 뿐 결국 모두 염기를 읽는 것이고 bioinformatics 분석을 위한 데이터 생산을 하는 과정이다. 분석을 하는 사람이라면, 한번쯤 시퀀싱 방법을 이해해두고 회사별로 플랫폼 이름정도만 알아두면 충분하다. Illumina solexa platform 어댑터 2개를 5' 3'에 붙인다. 각각 forward, reverse strand 의 primer 와 MI 가 태깅..
생물학 논문의 기본은 실험군과 대조군을 비교하는 것이다. 예를들면 카페인을 많이 마시면 머리가 나빠진다고 주장하고싶으면 커피를 매일 마신 그룹과 물을 매일 마신 그룹을 비교하면 된다. scRNAseq도 마찬가지이다. scRNAseq은 대조군 만으로도 도출해낼 수 있는 정보가 많지만, 실험군과 비교하였을때 얻어낼 수 있는 정보의 양과 질을 극대화할 수 있다. Integration 이란, 비교하고 싶은 두 그룹을 하나의 벡터공간상에 투여하는 것을 말한다. 두 그룹은 같은 벡터공간에 존재하게되어 cell cluster를 직접 비교할 수 있고 그룹별 batch effect 보정을 하는 알고리즘,통계 기법의 발전으로 신뢰도를 더해가고 있다.import scanpy as scimport pandas as pdsc..