Openrefine을 이용한 텍스트 편집

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

A Fine-Tuned Universe

Openrefine을 이용한 텍스트 편집 본문

Bioinformatics

Openrefine을 이용한 텍스트 편집

정재준 2020. 11. 16. 16:28

728x90

RNA-seq Fastq 파일을 sickle과 bwa, samtools, bedtools를 이용해 RPKM 값을 구했다

결과를 열어보니 annotation 에

ID=cds-QHU86080.1;Parent=gene-D3800_08820;Dbxref=NCBI_GP:QHU86080.1;Name=QHU86080.1;gbkey=CDS;inference=COORDINATES: similar to AA sequence:RefSeq:WP_002739195.1;locus_tag=D3800_08820;product=DUF928 domain-containing protein;protein_id=QHU86080.1;transl_table=11

이렇게 길게 적혀있다.

실제로 필요한 부분은 밑줄 친 locus tag과 product, protein id 뿐이다

각 유전자마다 저렇게 긴 설명이 붙어있어서 편집을 해야하는데 엑셀로 하기에는 애매하다

흔히 하듯이 구분기호로 분리를 하면 각 유전자마다 정보가 달라서 한 column에 다른 정보가 들어가게 분리되기 때문이다

그래서 Openrefine을 사용했다.

1. annotation column만 선택해서 텍스트 파일로 저장

2. openrefine에서 불러오기. 이 때 parse data as에서 line-based text file을 선택, 오른쪽 위의 Create project 클릭

이 때부터 column에 적힌 내용을 잘 살펴서 column을 여러개로 쪼개야한다.

column 옆에 있는 드롭다운 메뉴를 열고

edit column - split into several columns를 클릭

separator에 ;transl_table을 입력하고 OK를 누른다.

column 12에 =11 이라는 값이 생겼다

column 12 옆 드롭다운 메뉴를 열고 facet=text facet을 클릭하면 왼쪽에 그 column이 가진 모든 값을 보여준다

즉 =11 이라는 값이 가진 셀이 몇 개인지 보여준다

column 11에서 같은 방법으로 ;protein_id를 separator로 column을 둘로 나누어 준다.

그 다음은 ;pseudo=, ;product=, ;locus_tag= 이렇게 순서대로 column을 나누어준다

다시 정리하자면

;transl_table=

;protein_id=

;pseudo=

;product=

;locus_tag=

순서대로

오른쪽 위의 export를 눌러 엑셀 파일로 다운로드 받는다.

열어보면 원하던대로 locus tag, product, protein id가 잘 정리되어 있다

RPKM 계산한 파일에 붙여넣어서 사용하면 된다.

LIST

저작자표시 비영리 변경금지

'Bioinformatics' 카테고리의 다른 글

KEGG mapper (0)	2020.11.19
Statistical analysis of RNA-seq data (limma) (1)	2020.11.18
RNA-seq data processing using Galaxy and Linux (0)	2020.11.11
Artemis (Genome analysis, visualization, a circular map) (0)	2020.08.05
Pan-genome 분석 나름대로 순서 정리 (0)	2020.03.12

'Bioinformatics' Related Articles

A Fine-Tuned Universe 미생물학, 주식에 관심이 있습니다

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

A Fine-Tuned Universe

A Fine-Tuned Universe

Openrefine을 이용한 텍스트 편집 본문

Openrefine을 이용한 텍스트 편집

'Bioinformatics' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역