'리눅스' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/01 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록리눅스 (9)

A Fine-Tuned Universe

rename으로 파일 이름 한 번에 바꾸기

$ rename 's/변경전문자열/변경후문자열/' 대상파일 rename은 정규표현식을 사용하여 일정한 패턴을 가진 파일명을 한 번에 바꿀 수 있다 현재 디렉토리내의 모든 gff3 파일을 gff로 바꾸고 싶다면 아래와 같이 하면 된다 $ rename 's/.gff3/.gff/' *.gff3

Bioinformatics 2023. 7. 18. 15:06

[FastANI] 한 줄씩 출력되는 FastANI 결과를 matrix로 변환하기

FastANI 결과를 보면 아래와 같이 나온다 즉 genome1 genome2 ANI값 이런 식으로 나온다 하지만 보통은 matrix 형태로 정리된 아래 형태에 익숙할 것이다. 아니면 아래와 같은 형식으로 바꿔서 결과를 정리해야 할 때가 있다 그런데 비교하려는 유전체가 많아질 수록 결과를 정리하기가 힘들다. 그래서 주말에 아래와 같이 쉘스크립트를 써서 결과를 정리하였다 먼저 유전체 목록을 아래와 같이 파일로 만들었다. 사실 둘 다 같은 내용인데 가로 세로를 구분해서 생각하려고 따로 만들었다 ls *.gz > query_list ls *.gz > reference_list 그리고 아래와 같이 스크립트를 짜서 실행시켰다. #!/bin/bash while read query do awk -v genome=$q..

Bioinformatics/Linux 2023. 6. 27. 18:11

gff 파일에서 locus tag과 product만 추출하기

NCBI GenBank에서 유전체 정보를 보면 자주 참고하는 자료가 있고 계속 반복되어 나오지만 실제로는 보지 않는 자료가 있다 gbk 형식은 아래와 같이 생겼는데 gene complement(1616..1951) /locus_tag="MAE_00030" CDS complement(1616..1951) /locus_tag="MAE_00030" /codon_start=1 /transl_table=11 /product="ferredoxin" /protein_id="BAF99824.1" /translation="MPRITVYGQTITCDRGENLRRILLKHDISLYNGASKLINCRGIG SCGTCAVAIVGEVSAINWQEKARLSLPPHNPDNNRRLACQVKVFGDIEVTKYDGFWGQ GDSVISDQ..

Bioinformatics/Linux 2023. 1. 27. 11:00

[roary] query_pan_genome 스크립트로 roary 결과 다루기 (1) core gene의 protein id만 구하기

34개의 유전체를 roary로 분석하였다. amino acid identity 50% 기준이다 roary --f ./ -e -n -i 50 -p 64 *.gff 분석한 모든 유전체의 core gene을 query_pan_genome 스크립트로 구하였다 그 전에 분석에 사용한 모든 roary gff 파일과 query_pan_genome -a intersection *.gff 결과 파일은 확장자도 없이 'pan_genome_results' 라는 파일로 나왔다. 엑셀에서 열어보면 아래와 같다 자세히 살펴보면 gene name (gene name이 있는 경우에만, 없을 땐 protein id)가 맨 앞에 있고 그 다음에 콜론(:)이 공백(space)로 구분되어 있고 그 뒤로는 탭으로 구분된 protein id가..

Bioinformatics/그 외 2023. 1. 5. 16:09

이전 Prev 1 2 3 Next 다음

목록리눅스 (9)

A Fine-Tuned Universe

티스토리툴바