일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 스캘핑
- 생물정보학
- W패턴
- 관심종목
- 기술적분석
- 세균
- 상한가
- 추천종목
- 리눅스
- 차트분석
- 생명정보학
- bioinformatics
- 유전체
- 지지저항
- 쌍바닥패턴
- 우분투
- 기본적분석
- 매매일지
- 주식투자
- 지지저항선
- 비교유전체
- 초단타
- 주식매매
- 돌파매매
- mummer
- 증권사레포트
- 분봉차트
- 목표주가
- 이동평균선
- 매매기법
- Today
- Total
A Fine-Tuned Universe
Openrefine을 이용한 텍스트 편집 본문
RNA-seq Fastq 파일을 sickle과 bwa, samtools, bedtools를 이용해 RPKM 값을 구했다
결과를 열어보니 annotation 에
ID=cds-QHU86080.1;Parent=gene-D3800_08820;Dbxref=NCBI_GP:QHU86080.1;Name=QHU86080.1;gbkey=CDS;inference=COORDINATES: similar to AA sequence:RefSeq:WP_002739195.1;locus_tag=D3800_08820;product=DUF928 domain-containing protein;protein_id=QHU86080.1;transl_table=11
이렇게 길게 적혀있다.
실제로 필요한 부분은 밑줄 친 locus tag과 product, protein id 뿐이다
각 유전자마다 저렇게 긴 설명이 붙어있어서 편집을 해야하는데 엑셀로 하기에는 애매하다
흔히 하듯이 구분기호로 분리를 하면 각 유전자마다 정보가 달라서 한 column에 다른 정보가 들어가게 분리되기 때문이다
그래서 Openrefine을 사용했다.
1. annotation column만 선택해서 텍스트 파일로 저장
2. openrefine에서 불러오기. 이 때 parse data as에서 line-based text file을 선택, 오른쪽 위의 Create project 클릭
이 때부터 column에 적힌 내용을 잘 살펴서 column을 여러개로 쪼개야한다.
column 옆에 있는 드롭다운 메뉴를 열고
edit column - split into several columns를 클릭
separator에 ;transl_table을 입력하고 OK를 누른다.
column 12에 =11 이라는 값이 생겼다
column 12 옆 드롭다운 메뉴를 열고 facet=text facet을 클릭하면 왼쪽에 그 column이 가진 모든 값을 보여준다
즉 =11 이라는 값이 가진 셀이 몇 개인지 보여준다
column 11에서 같은 방법으로 ;protein_id를 separator로 column을 둘로 나누어 준다.
그 다음은 ;pseudo=, ;product=, ;locus_tag= 이렇게 순서대로 column을 나누어준다
다시 정리하자면
;transl_table=
;protein_id=
;pseudo=
;product=
;locus_tag=
순서대로
오른쪽 위의 export를 눌러 엑셀 파일로 다운로드 받는다.
열어보면 원하던대로 locus tag, product, protein id가 잘 정리되어 있다
RPKM 계산한 파일에 붙여넣어서 사용하면 된다.
'Bioinformatics' 카테고리의 다른 글
KEGG mapper (0) | 2020.11.19 |
---|---|
Statistical analysis of RNA-seq data (limma) (0) | 2020.11.18 |
RNA-seq data processing using Galaxy and Linux (0) | 2020.11.11 |
Artemis (Genome analysis, visualization, a circular map) (0) | 2020.08.05 |
Pan-genome 분석 나름대로 순서 정리 (0) | 2020.03.12 |