정재준 2022. 6. 13. 02:13

각각의 genome은 시퀀스뿐만 아니라 여러가지 정보를 포함하고 있다.

예를 들면, strain 이름, size, contig 수, GC%, accession number, ftp 링크 등등의 항목이 있다.

한 두 개의 genome이 아니라 매우 많은 수의 genome의 이런 정보들을 얻고 싶은데 일일이 링크를 타고 들어가서 복붙할 수는 없는 노릇이다




Index of /genomes/GENOME_REPORTS



여기에 들어가보니 뭔가 report들을 모아놓은 느낌이 든다

README를 읽어보자


This directory contains summary reports conveying the organism scope and 
detailed genome project reports grouped by major taxonomic divisions.

These files correspond to the tables available online at: 

Genome List - Genome - NCBI




이곳은 genome summary report를 모아놓은 곳이란다




File Name              File Content

overview.txt:   Comprehensive report of organisms that have 
               one or many genome sequencing projects that 
               may be complete, in progress or planned.

eukaryotes.txt: Eukaryotic genome sequencing projects 
               excluding projects that represent only organelles.

prokaryotes.txt: Prokaryotic genome sequencing projects                                      
                excluding projects that represent only plasmids
viruses.txt:   Viral genome sequencing projects 
               This report includes only data represented in 
               the RefSeq dataset. 

prok_reference_genomes.txt: List of reference genome: small curated subset of 
                                         really good and scientifically important prokaryotic genomes (see detail description below).
prok_representative_genomes.txt:  List of all selected representative prokaryotic genomes (see detail description below).

 내가 관심있는 건 prokaryotes.txt 이다. prokaryotes.txt 는 어떤 정보를 가지고 있나




Organism/Name          Organism name usually at the species level 
BioProject             BioProject Accession number (from BioProject database)
Group                  Phylum 
SubGroup               Class level 
Size (Mb)              Total length of DNA submitted for the project
GC%                    Percent of nitrogenous bases (guanine or cytosine) in 
                       DNA submitted for the project 
Chromosomes/RefSeq     Refseq chromosome sequence accessions 
Chromosomes/INSDC      GenBank chromosome sequence accessions 
Plasmids/RefSeq        Refseq plasmid sequence accessions
Plasmids/INSDC         GenBank plasmid sequence accessions   
WGS                    Four-letter Accession prefix followed by version as                  
                       defined in WGS division of GenBank/INSDC
Scaffolds              Number of scaffolds in the assembly
Genes                  Number of Genes annotated in the assembly
Proteins               Number of Proteins annotated in the assembly  
Release Date           First public sequence release for the project
Modify Date            Sequence modification date for the project
Status                 Highest level of assembly: 
                               Chromosomes  chromosome is represented by gapless contig
                               Scaffolds or contigs  sequence assembled but no chromosomes
                               SRA or Traces  raw sequence data available 
                               No data  no data is connected to the BioProject ID

위와 같은 정보를 담고 있다고 한다. 예를 들어 많은 수의 genome의 간략한 정보를 모아서 표를 만든다면 하나씩 복붙하지 않고 위 파일을 편집에서 사용할 수 있을 것이다.


텍스트 파일인데도 124Mb나 된다. 메모장에서 열려니 한참 걸리다가 안열린다

엑셀에서 열어서 필요한 것만 남기고 지워서 따로 저장했다