일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 차트분석
- 주식투자
- 지지저항
- 리눅스
- 생물정보학
- 우분투
- W패턴
- 기본적분석
- 분봉차트
- 상한가
- 기술적분석
- 증권사레포트
- 이동평균선
- bioinformatics
- 쌍바닥패턴
- 초단타
- 돌파매매
- 매매기법
- 세균
- 비교유전체
- mummer
- 목표주가
- 추천종목
- 스캘핑
- 유전체
- 지지저항선
- 생명정보학
- 관심종목
- 매매일지
- 주식매매
- Today
- Total
목록세균 (7)
A Fine-Tuned Universe
FastANI 결과를 보면 아래와 같이 나온다 즉 genome1 genome2 ANI값 이런 식으로 나온다 하지만 보통은 matrix 형태로 정리된 아래 형태에 익숙할 것이다. 아니면 아래와 같은 형식으로 바꿔서 결과를 정리해야 할 때가 있다 그런데 비교하려는 유전체가 많아질 수록 결과를 정리하기가 힘들다. 그래서 주말에 아래와 같이 쉘스크립트를 써서 결과를 정리하였다 먼저 유전체 목록을 아래와 같이 파일로 만들었다. 사실 둘 다 같은 내용인데 가로 세로를 구분해서 생각하려고 따로 만들었다 ls *.gz > query_list ls *.gz > reference_list 그리고 아래와 같이 스크립트를 짜서 실행시켰다. #!/bin/bash while read query do awk -v genome=$q..
Polysaccharide utilization loci (PUL)은 세균 유전체 상에서 다당류 물질을 이용하기 위해 필요한 유전자가 모여있는 부분을 말한다. 대부분 Bacteroidetes phylum의 세균에서 주로 발견된다. Pseudomonadota (전에는 Proteobacteria 였는데 이름이 바뀌었다. 적응이 안된다.) 세균들은 다당류를 이용하더라도 PUL 형태의 gene cluster가 거의 없는 것 같다. PUL에는 다당류 분해에 필요한 glycoside hydrolase, polysaccharide lyase 와 같은 carbohydrate-active enzymes (CAZy) 뿐만 아니라 transcriptional regulator, transporter 등 유전자가 함께 존재하..
22-09-15 추가 checkM은 prokaryotic genome이나 metagenome assembled genome의 quality를 체크해주는 프로그램이다 최근에는 checkM2가 새로 나왔다 분류단계 별 single gene set가 미리 준비되어 있고 assembled genome에서 single gene set의 존재 유무를 통해 분석한 genome의 completeness, contamination 을 추정해준다. 모든 분류단계의 single gene set이 있는 것은 아니다 어떤 genus는 list에 없다. 그럴 경우 상위 분류단계 (family, order 등) 를 기준으로 분석해야 하는데 상위 분류단계로 갈 수록 공통적으로 가지고 있는 single gene이 줄어든다. 따라서 c..
세균 genome sequencing을 위해 nanopore 시퀀싱 하였으나 pseudogene이 너무 많아 제대로 분석을 할 수가 없었다. (20%정도...) 실제로 유전체에 pseudogene이 많은게 아니라 시퀀싱 에러일 것으로 생각했기 때문에 illumina 로 한 번 더 시퀀싱 하였고 두 결과를 hybrid assembly 하고자 하였다 Unicycler는 short read를 먼저 assemble하여 contig를 만들고 long-read로 그 contig들을 scaffold 해주는 방식이다. 개발자는 이것을 short-read-first assembly 라고 부른다. 과거에는 nanopore와 같은 long-read sequencing의 depth가 낮고 정확도가 떨어지기 때문에 short-..