Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 매매일지
- 쌍바닥패턴
- 기술적분석
- 이동평균선
- 초단타
- 증권사레포트
- 상한가
- 지지저항
- 우분투
- 주식매매
- 목표주가
- 돌파매매
- 비교유전체
- 추천종목
- 유전체
- W패턴
- 관심종목
- 세균
- 생명정보학
- bioinformatics
- 기본적분석
- 주식투자
- 차트분석
- 리눅스
- 생물정보학
- 분봉차트
- 지지저항선
- 매매기법
- mummer
- 스캘핑
Archives
- Today
- Total
A Fine-Tuned Universe
NCBI Genome에서 genome report download 받기 본문
728x90
각각의 genome은 시퀀스뿐만 아니라 여러가지 정보를 포함하고 있다.
예를 들면, strain 이름, size, contig 수, GC%, accession number, ftp 링크 등등의 항목이 있다.
한 두 개의 genome이 아니라 매우 많은 수의 genome의 이런 정보들을 얻고 싶은데 일일이 링크를 타고 들어가서 복붙할 수는 없는 노릇이다
https://ftp.ncbi.nlm.nih.gov/genomes/GENOME_REPORTS
여기에 들어가보니 뭔가 report들을 모아놓은 느낌이 든다
README를 읽어보자
This directory contains summary reports conveying the organism scope and
detailed genome project reports grouped by major taxonomic divisions.
These files correspond to the tables available online at:
http://www.ncbi.nlm.nih.gov/genome/browse/
이곳은 genome summary report를 모아놓은 곳이란다
File Name File Content
--------------------------------------------------------------
overview.txt: Comprehensive report of organisms that have
one or many genome sequencing projects that
may be complete, in progress or planned.
eukaryotes.txt: Eukaryotic genome sequencing projects
excluding projects that represent only organelles.
prokaryotes.txt: Prokaryotic genome sequencing projects
excluding projects that represent only plasmids
viruses.txt: Viral genome sequencing projects
This report includes only data represented in
the RefSeq dataset.
prok_reference_genomes.txt: List of reference genome: small curated subset of
really good and scientifically important prokaryotic genomes (see detail description below).
prok_representative_genomes.txt: List of all selected representative prokaryotic genomes (see detail description below).
내가 관심있는 건 prokaryotes.txt 이다. prokaryotes.txt 는 어떤 정보를 가지고 있나
----------------
prokaryotes.txt:
----------------
Organism/Name Organism name usually at the species level
BioProject BioProject Accession number (from BioProject database)
Group Phylum
SubGroup Class level
Size (Mb) Total length of DNA submitted for the project
GC% Percent of nitrogenous bases (guanine or cytosine) in
DNA submitted for the project
Chromosomes/RefSeq Refseq chromosome sequence accessions
Chromosomes/INSDC GenBank chromosome sequence accessions
Plasmids/RefSeq Refseq plasmid sequence accessions
Plasmids/INSDC GenBank plasmid sequence accessions
WGS Four-letter Accession prefix followed by version as
defined in WGS division of GenBank/INSDC
Scaffolds Number of scaffolds in the assembly
Genes Number of Genes annotated in the assembly
Proteins Number of Proteins annotated in the assembly
Release Date First public sequence release for the project
Modify Date Sequence modification date for the project
Status Highest level of assembly:
Chromosomes chromosome is represented by gapless contig
Scaffolds or contigs sequence assembled but no chromosomes
SRA or Traces raw sequence data available
No data no data is connected to the BioProject ID
위와 같은 정보를 담고 있다고 한다. 예를 들어 많은 수의 genome의 간략한 정보를 모아서 표를 만든다면 하나씩 복붙하지 않고 위 파일을 편집에서 사용할 수 있을 것이다.
텍스트 파일인데도 124Mb나 된다. 메모장에서 열려니 한참 걸리다가 안열린다
엑셀에서 열어서 필요한 것만 남기고 지워서 따로 저장했다
LIST