일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 상한가
- 주식투자
- 매매일지
- 생명정보학
- 생물정보학
- 리눅스
- 매매기법
- 우분투
- 주식매매
- 쌍바닥패턴
- bioinformatics
- 관심종목
- mummer
- 초단타
- 증권사레포트
- W패턴
- 스캘핑
- 유전체
- 비교유전체
- 목표주가
- 이동평균선
- 분봉차트
- 기본적분석
- 세균
- 차트분석
- 추천종목
- 돌파매매
- 지지저항
- 지지저항선
- 기술적분석
- Today
- Total
목록Roary (3)
A Fine-Tuned Universe
서로 유사하지 않은 유전체를 많은 수 분석하다보니 아래와 같은 오류가 생긴다 "number of clusters(51652) exceeds limit 5000 Multifastas not created. please check the spread for cintamination from differert species of increase the --group_limit parameter." --group_lilmit parameter로 cluster limit을 늘려주라는 말이다 논문을 찾아보니 아래 논문에서도 이 옵션을 사용한 경우가 있다 "Furthermore, we conducted pan-genome analyses using the Roary pipeline with the “-i 70 –gr..

34개의 유전체를 roary로 분석하였다. amino acid identity 50% 기준이다 roary --f ./ -e -n -i 50 -p 64 *.gff 분석한 모든 유전체의 core gene을 query_pan_genome 스크립트로 구하였다 그 전에 분석에 사용한 모든 roary gff 파일과 query_pan_genome -a intersection *.gff 결과 파일은 확장자도 없이 'pan_genome_results' 라는 파일로 나왔다. 엑셀에서 열어보면 아래와 같다 자세히 살펴보면 gene name (gene name이 있는 경우에만, 없을 땐 protein id)가 맨 앞에 있고 그 다음에 콜론(:)이 공백(space)로 구분되어 있고 그 뒤로는 탭으로 구분된 protein id가..
Bioinformatics를 잘 하시는 분들은 스크립트로 여러가지 일을 뚝딱뚝딱 하시겠지만 많은 생물학 기반의 연구자와 대학원생들은 갑자기 유전체나 시퀀스 분석을 해야하는 상황을 만나면 당황할 수 밖에 없다. 많은 bioinformatics tool이 리눅스에서 돌아가는데 리눅스도 모르고 설치하는 것도 잘 모르겠고 각종 프로그래밍 언어도 모르고... 아무것도 모르는 상태에서 배워가면서 사용하면서 부딪히는 문제들을 두서없이 메모해서 업데이트하고 있다. 나 같은 사람이 또 있다면 도움이 되길... Official Roary sites https://sanger-pathogens.github.io/Roary/ https://github.com/microgenomics/tutorials/blob/master/p..