일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- bioinformatics
- 돌파매매
- 분봉차트
- 이동평균선
- 지지저항
- 주식투자
- 추천종목
- 주식매매
- 매매기법
- W패턴
- mummer
- 초단타
- 증권사레포트
- 차트분석
- 리눅스
- 세균
- 생명정보학
- 유전체
- 기본적분석
- 쌍바닥패턴
- 기술적분석
- 스캘핑
- 우분투
- 관심종목
- 목표주가
- 지지저항선
- 상한가
- 생물정보학
- 매매일지
- 비교유전체
- Today
- Total
목록Cut (2)
A Fine-Tuned Universe
NCBI GenBank에서 유전체 정보를 보면 자주 참고하는 자료가 있고 계속 반복되어 나오지만 실제로는 보지 않는 자료가 있다 gbk 형식은 아래와 같이 생겼는데 gene complement(1616..1951) /locus_tag="MAE_00030" CDS complement(1616..1951) /locus_tag="MAE_00030" /codon_start=1 /transl_table=11 /product="ferredoxin" /protein_id="BAF99824.1" /translation="MPRITVYGQTITCDRGENLRRILLKHDISLYNGASKLINCRGIG SCGTCAVAIVGEVSAINWQEKARLSLPPHNPDNNRRLACQVKVFGDIEVTKYDGFWGQ GDSVISDQ..
34개의 유전체를 roary로 분석하였다. amino acid identity 50% 기준이다 roary --f ./ -e -n -i 50 -p 64 *.gff 분석한 모든 유전체의 core gene을 query_pan_genome 스크립트로 구하였다 그 전에 분석에 사용한 모든 roary gff 파일과 query_pan_genome -a intersection *.gff 결과 파일은 확장자도 없이 'pan_genome_results' 라는 파일로 나왔다. 엑셀에서 열어보면 아래와 같다 자세히 살펴보면 gene name (gene name이 있는 경우에만, 없을 땐 protein id)가 맨 앞에 있고 그 다음에 콜론(:)이 공백(space)로 구분되어 있고 그 뒤로는 탭으로 구분된 protein id가..