A Fine-Tuned Universe

Galaxy를 이용한 RNA-seq data processing (from fastq to count) 본문

Bioinformatics

Galaxy를 이용한 RNA-seq data processing (from fastq to count)

정재준 2021. 4. 13. 17:08
728x90

1. Upload data to galaxy

(1) FTP를 이용하는 방법

Filezilla 설치 후 galaxy ftp에 접속, fastq.gz 파일을 업로드한다

Host: usegalaxy.org Username, Password 입력 usegalaxy.org 접속 후 FTP에 올려놓은 파일을 가져온다

 

2. Quality check

FastQC를 default 값으로 수행

Short read data from your current history: input file 선택

Execute 클릭하면 output으로 raw data, HTML file 생성

 

3. Trimming

Sickle sickle로 low-quality reads 제거

Single-end or paired-end reads: Single-end

Single-end FASTQ reads: fastq 파일 선택

Quality threshold: 30

 

4. Quality check after trimming

FastQC로 sickle로부터 얻은 output의 QC 수행

 

-- 여기까지 수정 --

 

5. Mapping

  • Mapping 하고자 하는 genome의 fasta 파일을 업로드 (BWA index는 galaxy가 자동으로 수행함)
  • Map with BWA-MEM
    • Use a genome from history and build index 선택
    • mapping 하고자 하는 genome fasta 파일 선택

 

-- 여기까지 수정 --

 

 

 

5. Mapping

 

Mapping 하고자 하는 genome의 fasta 파일을 업로드 (BWA index는 galaxy가 자동으로 수행함)

Map with BWA-MEM

Use a genome from history and build index 선택

mapping 하고자 하는 genome fasta 파일 선택

Map with BWA-MEM

 

 

 

5. Merge two fastq

concatenate datasets (head to tail, cat) 선택

sickle output file 두 개 선택 후 execute

 

6. maping and counting

Mapping 하고자 하는 genome의 fasta 파일을 업로드

Map with BWA-MEM 선택, mapping 하려는 genome의 fasta 파일 선택, single 선택, concatenate 한 파일 선택, execute 클릭

 

Samtools sort 선택, BAM file (BWA의 output)을 선택하고 execute

 

Bedtools BAM to BED 선택, Samtools 결과 파일 선택, (여기서잘 모르겠는거는 BED file type 선택하라고 할 때 어떤 걸 골라야 하는지, 일단 기본 값으로 해보았음)

 

Bedtools Compute both the depth and breadth of coverage 선택, coverage 계산하고자 하는 genome의 gff 파일 업로드, A=gff 파일 B=bed 파일

 

Text transformation with sed (/CDS/p advanced option에서 silent 선택)

 

끝!

 

quadrant.tistory.com/3

 

Reference based transcriptome analysis

리눅스 (Ubuntu 16.0.4) 운영체제에서 분석한 내용을 토대로 작성한 글입니다. (Illumina short read RNA-seq, Paired-end reads) 0. De novo vs. Reference based transcriptome analysis Raw data preproc..

quadrant.tistory.com

 

LIST

'Bioinformatics' 카테고리의 다른 글

Prokka - 세균 유전체 annotation  (0) 2022.01.18
KEGG pathway mapper  (0) 2021.08.13
General procedures for comparative genomic analysis  (0) 2021.04.01
Sigmaplot 맨날 헷갈려서 그냥 써놓는다  (0) 2021.03.26
KEGG mapper  (0) 2020.11.19