일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 주식매매
- 관심종목
- 이동평균선
- 지지저항
- 기술적분석
- mummer
- 유전체
- 우분투
- 세균
- 비교유전체
- 스캘핑
- 지지저항선
- 돌파매매
- 분봉차트
- 상한가
- 차트분석
- W패턴
- 증권사레포트
- 매매일지
- 기본적분석
- 매매기법
- 리눅스
- bioinformatics
- 초단타
- 목표주가
- 추천종목
- 주식투자
- 생명정보학
- 생물정보학
- 쌍바닥패턴
- Today
- Total
A Fine-Tuned Universe
Unicycler로 Nanopore와 Illumina의 hybrid assembly 본문
세균 genome sequencing을 위해 nanopore 시퀀싱 하였으나 pseudogene이 너무 많아 제대로 분석을 할 수가 없었다. (20%정도...) 실제로 유전체에 pseudogene이 많은게 아니라 시퀀싱 에러일 것으로 생각했기 때문에 illumina 로 한 번 더 시퀀싱 하였고 두 결과를 hybrid assembly 하고자 하였다
Unicycler는 short read를 먼저 assemble하여 contig를 만들고 long-read로 그 contig들을 scaffold 해주는 방식이다. 개발자는 이것을 short-read-first assembly 라고 부른다. 과거에는 nanopore와 같은 long-read sequencing의 depth가 낮고 정확도가 떨어지기 때문에 short-read-first assembly 로 개발되었으나 최근에는 long-read sequencing의 시퀀스 생산량과 정확도가 좋아졌기 때문에 long-read-first assembly를 하고 싶은 사람은 Tricycler와 Polypolish를 사용하라고 안내되어 있다. 두 프로그램은 나중에 알아봐야겠다.
그런데 생각해보면 내가 지금 hybrid assembly를 하는 이유는 nanopore 결과에 에러가 너무 많았기 때문에 hybrid assembly를 하려는 것이므로 Unicycler의 short-read-first 방식이 적합한 것 같다.
https://github.com/rrwick/Unicycler
Illumina-only assembly:
unicycler -1 short_reads_1.fastq.gz -2 short_reads_2.fastq.gz -o output_dir
Long-read-only assembly:
unicycler -l long_reads.fastq.gz -o output_dir
Hybrid assembly:
unicycler -1 short_reads_1.fastq.gz -2 short_reads_2.fastq.gz -l long_reads.fastq.gz -o output_dir
나는 Hybrid assembly 의 경우이니까 마지막 명령어를 참고하였다. 생각없이 그냥 명령어대로 실행
22-09-13 추가
Pacbio와 Illumina 에서 얻은 시퀀스를 assembly 하고 있다.
업체에서 받은 파일을 보면 Pacbio 결과 파일로 bam, bam.pbi, fasta 파일을 줬다. bam 에서 subread fasta를 추출해서 준 것 같은데
unicycler -1 short_reads_1.fastq.gz -2 short_reads_2.fastq.gz -l subreads.fastq.gz -o output_dir -t 64
이렇게 fastq 가 아닌 fasta를 사용하였고 64개 thread 를 사용하였다.
'Bioinformatics' 카테고리의 다른 글
UBCG, phylogenomic tree (0) | 2022.09.27 |
---|---|
Checkm 명령어 정리 (0) | 2022.09.15 |
cut 명령어 이용해서 파일이름 일괄 변경 (0) | 2022.04.12 |
Prokka - 세균 유전체 annotation (0) | 2022.01.18 |
KEGG pathway mapper (0) | 2021.08.13 |