A Fine-Tuned Universe

standalone BLAST (계속 수정 중) 본문

Bioinformatics

standalone BLAST (계속 수정 중)

정재준 2019. 9. 19. 12:24
728x90

내가 관심있는 유전자가 어떤 기능인지 또는 기능을 알고 있는 유전자를 이용해 내가 가진 유전정보에서 해당 기능을 가진 유전자를 찾고 싶을 때 시퀀스의 유사도를 기반으로 가까운 유전자를 찾아주는 BLAST를 흔히 사용한다

 

몇 개의 유전자만을 찾아보려면 NCBI BLAST 페이지에서 웹 기반으로 할 수 있지만 대량의 유전자를 찾아보아야 한다면 웹에서는 할 수 없다

 

(시간이 나거나 생각이 날 때마다 수정해서 이 포스트를 조금씩 보완해갈 예정이다.)

 

1. BLAST database 만들기

 

BLAST database는 makeblastdb 명령어를 이용하여 만들 수 있다

nucleotide 또는 protein fasta 파일을 먼저 준비한다

 

이 포스트에서는 Pseudomonas mendocina strain MAE1-K 를 예제로 설명해보겠다

 

NCBI Nucleotide CP023641.1로 이동한다

https://www.ncbi.nlm.nih.gov/nuccore/CP023641.1

 

Pseudomonas mendocina strain MAE1-K chromosome, complete genome - Nucleotide - NCBI

 

www.ncbi.nlm.nih.gov

화면 오른쪽 위에 있는 Send to를 누르고 Coding sequences를 선택하면 FASTA nucleotide 또는 protein를 고르 수 있는데 이번 예제에서는 nucleotide FASTA를 다운받아보겠다

 

 

Coding sequence의 Nucleotide fasta 다운로드 받기

 

 

 

makeblastdb -in 0426-cyano.faa -dbtype prot -out NIES298

makeblastdb -in MAE1K_nuc.txt -dbtype nucl -out MAE1K_nucl

 

 

blastp -db NIES298 -query Query_LuxR.fasta -out Hit_NIES298_LuxR -outfmt 7 -evalue 0.00001 -max_target_seqs 1

blastp -db NIES298 -query query_epd.fasta -out Hit_NIES298_epd -outfmt 6 -evalue 0.00001 -max_target_seqs 1

BLAST의 결과는 여러 형태로 나타낼 수 있는데

-outfmt 뒤에 숫자를 붙여서 선택하면 된다.

 

blastp -db NIES298 -query query_epd.fasta -out Hit_NIES298_epd -outfmt 6 -evalue 0.00001 -max_target_seqs 1

 

-outfmt 6은 header에 qseqid sseqid pident length mismatch gapopen qstart qend sstart send evalue bitscore가 순서대로 표시되고 tab-delmited value로 저장된다

 

각 줄임말의 의미는 아래와 같다

qseqid: query (e.g., unknown gene) sequence id
sseqid: subject (e.g., reference genome) sequence id
pident:  percentage of identical matches
length:  alignment length (sequence overlap)
mismatch:  number of mismatches
gapopen:  number of gap openings
qstart:  start of alignment in query
qend:  end of alignment in query
sstart:  start of alignment in subject
send:  end of alignment in subject
evalue:  expect value
bitscore:  bit score


LIST