A Fine-Tuned Universe

Unicycler로 Nanopore와 Illumina의 hybrid assembly 본문

Bioinformatics

Unicycler로 Nanopore와 Illumina의 hybrid assembly

정재준 2022. 9. 13. 07:00
728x90

세균 genome sequencing을 위해 nanopore 시퀀싱 하였으나 pseudogene이 너무 많아 제대로 분석을 할 수가 없었다. (20%정도...) 실제로 유전체에 pseudogene이 많은게 아니라 시퀀싱 에러일 것으로 생각했기 때문에 illumina 로 한 번 더 시퀀싱 하였고 두 결과를 hybrid assembly 하고자 하였다

 

Unicycler는 short read를 먼저 assemble하여 contig를 만들고 long-read로 그 contig들을 scaffold 해주는 방식이다. 개발자는 이것을 short-read-first assembly 라고 부른다. 과거에는 nanopore와 같은 long-read sequencing의 depth가 낮고 정확도가 떨어지기 때문에 short-read-first assembly 로 개발되었으나 최근에는 long-read sequencing의 시퀀스 생산량과 정확도가 좋아졌기 때문에 long-read-first assembly를 하고 싶은 사람은 Tricycler와 Polypolish를 사용하라고 안내되어 있다. 두 프로그램은 나중에 알아봐야겠다.

 

그런데 생각해보면 내가 지금 hybrid assembly를 하는 이유는 nanopore 결과에 에러가 너무 많았기 때문에 hybrid assembly를 하려는 것이므로 Unicycler의 short-read-first 방식이 적합한 것 같다.

 

https://github.com/rrwick/Unicycler

 

GitHub - rrwick/Unicycler: hybrid assembly pipeline for bacterial genomes

hybrid assembly pipeline for bacterial genomes. Contribute to rrwick/Unicycler development by creating an account on GitHub.

github.com

 

Illumina-only assembly:
unicycler -1 short_reads_1.fastq.gz -2 short_reads_2.fastq.gz -o output_dir

Long-read-only assembly:
unicycler -l long_reads.fastq.gz -o output_dir

Hybrid assembly:
unicycler -1 short_reads_1.fastq.gz -2 short_reads_2.fastq.gz -l long_reads.fastq.gz -o output_dir

 

나는 Hybrid assembly 의 경우이니까 마지막 명령어를 참고하였다. 생각없이 그냥 명령어대로 실행

 

22-09-13 추가

Pacbio와 Illumina 에서 얻은 시퀀스를 assembly 하고 있다.

업체에서 받은 파일을 보면 Pacbio 결과 파일로 bam, bam.pbi, fasta 파일을 줬다. bam 에서 subread fasta를 추출해서 준 것 같은데

unicycler -1 short_reads_1.fastq.gz -2 short_reads_2.fastq.gz -l subreads.fastq.gz -o output_dir -t 64

이렇게 fastq 가 아닌 fasta를 사용하였고 64개 thread 를 사용하였다.

 

LIST

'Bioinformatics' 카테고리의 다른 글

UBCG, phylogenomic tree  (0) 2022.09.27
Checkm 명령어 정리  (0) 2022.09.15
cut 명령어 이용해서 파일이름 일괄 변경  (0) 2022.04.12
Prokka - 세균 유전체 annotation  (0) 2022.01.18
KEGG pathway mapper  (0) 2021.08.13