Openrefine을 이용한 텍스트 편집
RNA-seq Fastq 파일을 sickle과 bwa, samtools, bedtools를 이용해 RPKM 값을 구했다
결과를 열어보니 annotation 에
ID=cds-QHU86080.1;Parent=gene-D3800_08820;Dbxref=NCBI_GP:QHU86080.1;Name=QHU86080.1;gbkey=CDS;inference=COORDINATES: similar to AA sequence:RefSeq:WP_002739195.1;locus_tag=D3800_08820;product=DUF928 domain-containing protein;protein_id=QHU86080.1;transl_table=11
이렇게 길게 적혀있다.
실제로 필요한 부분은 밑줄 친 locus tag과 product, protein id 뿐이다
각 유전자마다 저렇게 긴 설명이 붙어있어서 편집을 해야하는데 엑셀로 하기에는 애매하다
흔히 하듯이 구분기호로 분리를 하면 각 유전자마다 정보가 달라서 한 column에 다른 정보가 들어가게 분리되기 때문이다
그래서 Openrefine을 사용했다.
1. annotation column만 선택해서 텍스트 파일로 저장
2. openrefine에서 불러오기. 이 때 parse data as에서 line-based text file을 선택, 오른쪽 위의 Create project 클릭
이 때부터 column에 적힌 내용을 잘 살펴서 column을 여러개로 쪼개야한다.
column 옆에 있는 드롭다운 메뉴를 열고
edit column - split into several columns를 클릭
separator에 ;transl_table을 입력하고 OK를 누른다.
column 12에 =11 이라는 값이 생겼다
column 12 옆 드롭다운 메뉴를 열고 facet=text facet을 클릭하면 왼쪽에 그 column이 가진 모든 값을 보여준다
즉 =11 이라는 값이 가진 셀이 몇 개인지 보여준다
column 11에서 같은 방법으로 ;protein_id를 separator로 column을 둘로 나누어 준다.
그 다음은 ;pseudo=, ;product=, ;locus_tag= 이렇게 순서대로 column을 나누어준다
다시 정리하자면
;transl_table=
;protein_id=
;pseudo=
;product=
;locus_tag=
순서대로
오른쪽 위의 export를 눌러 엑셀 파일로 다운로드 받는다.
열어보면 원하던대로 locus tag, product, protein id가 잘 정리되어 있다
RPKM 계산한 파일에 붙여넣어서 사용하면 된다.