A Fine-Tuned Universe

Checkm 명령어 정리 본문

Bioinformatics

Checkm 명령어 정리

정재준 2022. 9. 15. 09:59
728x90

22-09-15 추가

checkM은 prokaryotic genome이나 metagenome assembled genome의 quality를 체크해주는 프로그램이다

최근에는 checkM2가 새로 나왔다

분류단계 별 single gene set가 미리 준비되어 있고

assembled genome에서 single gene set의 존재 유무를 통해 분석한 genome의 completeness, contamination 을 추정해준다.

모든 분류단계의 single gene set이 있는 것은 아니다 어떤 genus는 list에 없다.

그럴 경우 상위 분류단계 (family, order 등) 를 기준으로 분석해야 하는데

상위 분류단계로 갈 수록 공통적으로 가지고 있는 single gene이 줄어든다.

따라서 complete하지 않은데 complete하다고 분석될 가능성이 높아진다.

 

(분석하고자 하는 Genome의 FASTA 파일을 모두 한 폴더에 넣기)

 

checkm taxon_list

#분석하고자 하는 세균이 List에 있는지 확인.

#genus이름이 없을 경우 family 이름으로 대체 가능

#higher rank로 갈 수록 universal gene만 골라지기 때문에 결과의 신빙성이 떨어짐

 

checkm taxon_set genus Pseudomonas Pseudomonas.ms

#Genus, species 등 선택가능

#DB file 확장자는 반드시 ms

 

checkm analyze Pseudomonas.ms -x .fasta ./ ./ -t 64

#폴더 안의 모든 fasta 확장자 파일을 분석하여 현재 폴더에 bin 파일과 output 파일을 저장

#-t 64 : 64개의 thread 이용

 

checkm qa Pseudomonas.ms ./ > result_Pseudomonas.txt

 

논문: https://genome.cshlp.org/content/25/7/1043.full.html

 

8/13

checkm taxon_set family Flavobacteriaceae Flavobacteriaceae.ms

checkm analyze Flavobacteriaceae.ms -x .fna ./ ./

checkm qa Flavobacteriaceae.ms ./ > result_Flavobacteriaceae_2.txt

LIST