Galaxy를 이용한 RNA-seq data processing (from fastq to count) 본문
1. Upload data to galaxy
(1) FTP를 이용하는 방법
Filezilla 설치 후 galaxy ftp에 접속, fastq.gz 파일을 업로드한다
Host: usegalaxy.org Username, Password 입력 usegalaxy.org 접속 후 FTP에 올려놓은 파일을 가져온다
2. Quality check
FastQC를 default 값으로 수행
Short read data from your current history: input file 선택
Execute 클릭하면 output으로 raw data, HTML file 생성
3. Trimming
Sickle sickle로 low-quality reads 제거
Single-end or paired-end reads: Single-end
Single-end FASTQ reads: fastq 파일 선택
Quality threshold: 30
4. Quality check after trimming
FastQC로 sickle로부터 얻은 output의 QC 수행
5. Mapping
- Mapping 하고자 하는 genome의 fasta 파일을 업로드 (BWA index는 galaxy가 자동으로 수행함)
- Map with BWA-MEM
- Use a genome from history and build index 선택
- mapping 하고자 하는 genome fasta 파일 선택
5. Merge two fastq
concatenate datasets (head to tail, cat) 선택
sickle output file 두 개 선택 후 execute
6. maping and counting
Mapping 하고자 하는 genome의 fasta 파일을 업로드
Map with BWA-MEM 선택, mapping 하려는 genome의 fasta 파일 선택, single 선택, concatenate 한 파일 선택, execute 클릭
Samtools sort 선택, BAM file (BWA의 output)을 선택하고 execute
Bedtools BAM to BED 선택, Samtools 결과 파일 선택, (여기서잘 모르겠는거는 BED file type 선택하라고 할 때 어떤 걸 골라야 하는지, 일단 기본 값으로 해보았음)
Bedtools Compute both the depth and breadth of coverage 선택, coverage 계산하고자 하는 genome의 gff 파일 업로드, A=gff 파일 B=bed 파일
Text transformation with sed (/CDS/p advanced option에서 silent 선택)
Reference based transcriptome analysis
리눅스 (Ubuntu 16.0.4) 운영체제에서 분석한 내용을 토대로 작성한 글입니다. (Illumina short read RNA-seq, Paired-end reads) 0. De novo vs. Reference based transcriptome analysis Raw data preproc..
