일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 티스토리챌린지
- 통계학
- pcrnaseq
- endothelial
- np.trace
- single cell rna sequening
- R
- 오블완
- scanpy
- 후기
- np.triu
- np.flatten
- 대학생재테크
- np.diagflat
- 대학생주식
- 대학원
- bioinformatics
- 주식투자
- Preprocessing
- Python
- numpy
- 넘파이 매서드
- singe cell ran sequencing
- liver
- journal meeting
- Tutorial
- single cell rna sequencing
- scRNASeq
- 선형대수
- 주식
- Today
- Total
목록bioinformatics (9)
biotechknowledge

생물학 논문의 기본은 실험군과 대조군을 비교하는 것이다. 예를들면 카페인을 많이 마시면 머리가 나빠진다고 주장하고싶으면 커피를 매일 마신 그룹과 물을 매일 마신 그룹을 비교하면 된다. scRNAseq도 마찬가지이다. scRNAseq은 대조군 만으로도 도출해낼 수 있는 정보가 많지만, 실험군과 비교하였을때 얻어낼 수 있는 정보의 양과 질을 극대화할 수 있다. Integration 이란, 비교하고 싶은 두 그룹을 하나의 벡터공간상에 투여하는 것을 말한다. 두 그룹은 같은 벡터공간에 존재하게되어 cell cluster를 직접 비교할 수 있고 그룹별 batch effect 보정을 하는 알고리즘,통계 기법의 발전으로 신뢰도를 더해가고 있다.import scanpy as scimport pandas as pdsc..

Re-assess quality control and cell filteringsc.pl.umap( adata, color=["leiden", "predicted_doublet", "doublet_score"], # increase horizontal space between panels wspace=0.5, size=3,) sc.pl.umap() : UMAP 을 통해 차원 축소된 데이터를 시각화 한다.color=["leiden", "predicted_doublet", "doublet_score"] : 각각의 UMAP 플롯에서 색상을 지정하는 기준이다. 첫번째 그래프는 클러스터별로 색깔을 입힌 것이다. doublet score 를 보며 threshold 를 조절해볼 수 있고 ..

Doublet detectionsc.pp.scrublet(adata, batch_key="sample") Single cell rna sequencing은 세포 하나하나의 RNA 전사체를 분석한다. 세포 하나하나를 떼어내는 것은 기술적으로 굉장히 어렵기 때문에 세포 2개가 1개로 인식되는 경우가 있다. Scanpy는 doublet(세포2개) cell을 구별해내는 매서드 sc.pp.scrublet() 를 제공한다. (reference : graph abstraction reconciles clustering with trajectory inference through a topology preserving map of single cells) scanpy 개발자들이 제공하는 툴들은 다 reference ..

메타데이터를 만들었으면 이제 cell QC를 진행한다. 이 단계는 여러가지 지표를 이용해 정상범위 밖에 있는 세포(이상치)를 판단하고 제거하여 데이터 품질을 올리는 단계이다. 세포의 품질을 판단하기 위해 Scater: pre-processing, quality control, normalization and visualization of single-cell RNA-seq data in R (reference) 를 참고한다. 레퍼런스에서는 mito, ribo, hb 유전자를 참고하여 cell quaility를 판단한다. 다양한 cell QC 방법이 reference가 있을테니 여러가지로 테스트 해보도록 하자.. 미토콘드리아 유전자 (mt) : 세포가 손상되면 mt 유전자 발현이 비정상적으로 증가할 수 있..
# Core scverse librariesimport scanpy as scimport anndata as ad# Data retrievalimport pooch AnnData single cell rna 데이터를 체계적으로 저장하기 위한 구조로, 유전자 발현 행렬을 X라는 속성에 저장하고, 유전자 ID와 세포 바코드 정보를 var(변수)와 obs(관측값)에 각각 저장한다. obs (Observations):obs는 세포에 대한 메타데이터를 (실험 조건, 세포의 특성, 클러스터링 결과 등) 저장하는 곳입니다. 데이터프레임 형태를 가지며, 각 행이 하나의 세포를 나타냅니다.예를 들어, 각 세포에 대해 클러스터 레이블, 샘플 조건, 배치 정보 등 다양한 정보를 이곳에 저장할 수 있습니다.var (Varia..
Q. DNA 이중가닥 중 어떤 가닥을 사용하며 각각의 단백질 결과물이 다를텐데 우리 몸은 어떤 가닥을 사용하는지?A. DNA에서 실제로 전사되는 가닥을 템플릿(Template Strand)라고 하며 이 가닥은 mRNA 합성하는 정보가 담겨 있다. 비템플릿 가닥(Non-Template Strand)는 Coding Strand 라고도 한다. 어떤 가닥이 사용되는 지는 고정되어 있다. 템플릿과 비템플릿 가닥은 유전자에 따라 다르다. 정확한 가닥 사용을 보장하기 위해 프로모터 영역과 전사인자 매커니즘을 이용하여 템플릿 가닥을 가려낸다. ORF(Open Reading Frame)Sequencing을 통하여 mRNA의 염기 서열을 추정한 후, 그 중에서 어디에서부터 어디까지가 단백질로 번역되는지 알아야 한다. 번역..

이 포스트는 K-MOOC 의 생명정보개론 강의를 들으며 정리한 것으로 공부하면서 생겼던 의문점을 함께 정리하였습니다. Location : X 염색체 q25번 위치에 존재Exon count : 이 유전자가 전사되고 스플라이싱 과정을 거친 후, 10개의 엑손이 포함된 mRNA가 생성됨.Annotation release 와 Assembly의 관계각 Annotation release는 특정 Assembly 버전을 기준으로 유전자의 위치를 설명한다. 예를 들어 Rs_2023_10이라는 주석은 GRCh38.p14 및 T2T-CHM13v2.0을 기준으로 하고 있으며, 이전 주석 데이터(105.20220307)는 GRCh37.p13을 기준으로 한다. Exon 과 Coding Sequence(CDS) 의 개념..

이 포스트는 K-MOOC 의 생명정보개론 강의를 들으며 정리한 것으로 공부하면서 생겼던 의문점을 함께 정리하였습니다. 변이 데이터베이스-2001년에 진행돼었던 human genome project 때 밝힌 인간의 DNA를 기준(reference)으로 삼는다. SNP(Single nucleotide polymorphism) DNA 염기서열에서 하나의 염기서열(A,T,G,C)의 차이를 보이는 유전적 변화 또는 변이를 단일 핵산염기 다형현상(SNP)라 한다. 여러사람들에게 공통적으로 나타난다면 (polymorphism) 이라 한다. Q.어느 개인에게 SNP가 발견되었을 때, 그것이 질병을 일으키는 변이인지, 아니면 단순한 개인의 특징을 결정하는 변이인지 구분을 어떻게 하는가?A. 데이터 베이스 참조 (Clin..