A Fine-Tuned Universe

Openrefine을 이용한 텍스트 편집 본문

Bioinformatics

Openrefine을 이용한 텍스트 편집

정재준 2020. 11. 16. 16:28
728x90

RNA-seq Fastq 파일을 sickle과 bwa, samtools, bedtools를 이용해 RPKM 값을 구했다

결과를 열어보니 annotation 에

 

ID=cds-QHU86080.1;Parent=gene-D3800_08820;Dbxref=NCBI_GP:QHU86080.1;Name=QHU86080.1;gbkey=CDS;inference=COORDINATES: similar to AA sequence:RefSeq:WP_002739195.1;locus_tag=D3800_08820;product=DUF928 domain-containing protein;protein_id=QHU86080.1;transl_table=11

 

이렇게 길게 적혀있다.

실제로 필요한 부분은 밑줄 친 locus tag과 product, protein id 뿐이다

각 유전자마다 저렇게 긴 설명이 붙어있어서 편집을 해야하는데 엑셀로 하기에는 애매하다

흔히 하듯이 구분기호로 분리를 하면 각 유전자마다 정보가 달라서 한 column에 다른 정보가 들어가게 분리되기 때문이다

 

그래서 Openrefine을 사용했다.

 

1. annotation column만 선택해서 텍스트 파일로 저장

2. openrefine에서 불러오기. 이 때 parse data as에서 line-based text file을 선택, 오른쪽 위의 Create project 클릭

 

이 때부터 column에 적힌 내용을 잘 살펴서 column을 여러개로 쪼개야한다.

column 옆에 있는 드롭다운 메뉴를 열고

 

edit column - split into several columns를 클릭

 

separator에 ;transl_table을 입력하고 OK를 누른다.

column 12에 =11 이라는 값이 생겼다

 

column 12 옆 드롭다운 메뉴를 열고 facet=text facet을 클릭하면 왼쪽에 그 column이 가진 모든 값을 보여준다

즉 =11 이라는 값이 가진 셀이 몇 개인지 보여준다

 

column 11에서 같은 방법으로 ;protein_id를 separator로 column을 둘로 나누어 준다.

그 다음은 ;pseudo=, ;product=, ;locus_tag= 이렇게 순서대로 column을 나누어준다

 

다시 정리하자면

;transl_table=

;protein_id=

;pseudo=

;product=

;locus_tag=

순서대로

 

오른쪽 위의 export를 눌러 엑셀 파일로 다운로드 받는다.

열어보면 원하던대로 locus tag, product, protein id가 잘 정리되어 있다

 

RPKM 계산한 파일에 붙여넣어서 사용하면 된다.

 

 

LIST