定期リリース

定期リリース作成処理概要
2011年1月現在、定期リリース作成処理とは、3極(DDBJ,EMBL,Genbank)の定期リリースデータ、DailyUpdateデータ内の、INSDCoreデータ、CON Divisionデータ、TPA Divisionデータを、データ締日(※)を基準にして取り出し、それらの3極分のデータをDDBJの観点から結合、変換、編集することで、DDBJとしての新規定期リリースデータを作成し、一般(全世界)に提供する作業のことをいう.

(※)（用語）データ締日 DDBJリリース作成作業では締日という日をDDBJ内部の事前調整をもとに決定している. 締日を基準に他極、自極のデータを収集しておき、これらのデータに後述する処理を加えることでDDBJリリースデータを作成している.

定期リリース作成作業は、概略で以下の処理／作業を行うものであるとして説明していく. それぞれの中の個別処理については、項目を追ってさらに後述する.

Genbank、EMBL/EBI、JPO等からリリースデータ、デイリーデータとその他の付加データをインターネット経由で、データ締日を基準にして取得する. リリースデータ中の各エントリデータは、三極それぞれのリリースデータ内に、それぞれ存在するが、1エントリに対して大元の登録受付機関(極)は１つでありその機関がデータ源である. この為、データ源のリリースデータからオリジナルデータを取り出し処理対象とする. Genbank、EMBLのリリースデータは、それぞれがエラーチェックを行って公開しているデータだが、処理過程でエラーが混入することもあるので、DDBJとしても受け入れ時にデータのエラーチェックを行う. 収集し、抽出した各種外部データ、DDBJ由来データを、一つのデータとして結合する. 結合したデータについて、DDBJの定期リリースデータとして必要と考える各種のデータ変換作業を適用する. 結合、変換したデータを、DDBJで定義したDDBJフラットファイルフォーマット、INSD-XMLフォーマットに従ったテキストファイルに整形する. 作成したリリースデータをもとに、検索利用の為の各種インデックスファイルを作成する. リリースデータの各種統計情報を、リリースデータをもとに計算、生成する. リリースデータとともに、BLAST等の検索用プログラムに利用する為のFASTAファイル、CDSDBファイルを作成する (CDSDBファイルについては処理項目説明を参照). 作成した定期リリースデータを、getentryシステム(http://getentry.ddbj.nig.ac.jp/top-j.html アクセッション番号によるエントリ検索システム)に反映する. DDBJスーパーコンピュータシステム上での解析用途の為にリリースデータをシステム内の解析サーバの所定のディレクトリ位置に配置する. (ただし、現システム構成に非常に依存した説明になり、かつ処理としては単純なので、この資料ではこの作業については説明を省略する. ) DDBJが管理する外部公開用サーバftp.ddbj.nig.ac.jp上に、作成した定期リリースデータ一式を配置する.
 * 1) 外部データ取得
 * 1) 各極(DDBJ,Genbank,EMBL)由来データの抽出
 * 1) データエラーチェック
 * 1) データ結合・変換
 * 1) DDBJリリースデータ (フラットファイル、INSD-XMLファイル)の作成
 * 1) リリースデータの各種インデックスファイル作成
 * 1) リリースデータの各種統計情報作成
 * 1) FASTAファイル、CDSDBファイル作成
 * 1) getentryへの定期リリースデータ反映処理
 * 1) 解析サーバへのデータ配置
 * 1) anonymous ftpサーバへの必要データ一式配置、外部公開

外部データ供給元一覧
以下の機関、団体からデータの供給を受けている.


 * Genbank(NCBI)
 * EMBL-Bank(EBI)
 * JPO(Japan Patent Office)
 * KIPO(Korean Intellectual Property Office:韓国特許庁)またはKOBIC(Korean Bioinformation Center)
 * biomirror Project
 * BIRC(産総研　バイオメディシナル情報研究センター)

以下の機関は、Genbank、EMBL、JPOを介してデータ供給を受けている. ftp等を利用した直接のデータ交換は無い.


 * USPTO(United States Patent and Trademark Office)(Genbankデータに含まれる)
 * EPO(European Patent Office) (EMBLデータに含まれる)

実際にデータ取得の為にFTP接続をすることがあるのは以下のサイトである.

リリースデータについては、ダウンロード時の回線速度の関連から、biomirrorプロジェクトの日本サイトを利用している. データ自身は大元のGenbank、EMBLとは変わらない. 但し、データ配置タイミングは大元とずれる可能性がある.

Genbank,EMBLについては、それぞれの外部公開サイトだけではなく、3極でデータ交換を行う為のプライベートサイトが存在し、プライベートサイト経由でのデータ交換を行っているデータもある.

外部データファイル一覧
以下のデータを定期リリースシステムはDDBJ外部から取得、処理対象とする. 各処理項目の解説時に取得詳細は記述するが、まとめ表として一覧を以下に記述する.

定期リリース処理各項目説明
概要で述べた処理概要の各処理項目の詳細について以下に記述する.

外部データ取得
各種データ取得(システムの入り口部分)処理について記述する.

ORGANISM-DIVISION対応表取得
ORGANISM-DIVISION対応表とは生物名とTaxonomic Divisionの対応付けを行う表であり、後述の「Division変換(EMBL)」に必要となる対応表である.

DDBJの運用では、大元のデータは、NCBIのプライベートサイトに存在するtaxonomyデータを1時間間隔でftpダウンロードしてきており、これを加工して目的データを作成している. パブリックサイトにある同様のデータは利用していない. このファイル取得についてはユーザ認証が必要となる. 認証情報は別に記載する.

ftp://ftp-private.ncbi.nih.gov/taxdump.tar.gz

展開すると以下のファイルが含まれる.

citations.dmp gc.prt merged.dmp names.dmp delnodes.dmp gencode.dmp mod.dmp nodes.dmp division.dmp hiddennodes.dmp modforward.dmp readme.txt

この中で利用するファイルは、nodes.dmp,names.dmp,division.dmpの3つ.

生成する目的データファイルは以下.

元データとしては、NCBIから取得した、division.dmpファイル、nodes.dmpファイル、names.dmpファイルを利用する.

division.dmpファイル

Divisions file has these fields: division id		-- taxonomy database division id 	division cde	-- GenBank division code (three characters) division name	-- e.g. BCT, PLN, VRT, MAM, PRI... comments

nodes.dmpファイル

This file represents taxonomy nodes. The description for each node includes the following fields: tax_id			-- node id in GenBank taxonomy database parent tax_id		-- parent node id in GenBank taxonomy database rank			-- rank of this node (superkingdom, kingdom, ...) embl code				-- locus-name prefix; not unique division id				-- see division.dmp file inherited div flag (1 or 0)		-- 1 if node inherits division from parent genetic code id				-- see gencode.dmp file inherited GC flag  (1 or 0)		-- 1 if node inherits genetic code from parent mitochondrial genetic code id		-- see gencode.dmp file inherited MGC flag (1 or 0)		-- 1 if node inherits mitochondrial gencode from parent GenBank hidden flag (1 or 0)           -- 1 if name is suppressed in GenBank entry lineage hidden subtree root flag (1 or 0)      -- 1 if this subtree has no sequence data yet comments				-- free-text comments and citations

names.dmpファイル

Taxonomy names file has these fields: tax_id				-- the id of node associated with this name name_txt				-- name itself unique name			-- the unique variant of this name if name not unique name class				-- (synonym, common name, ...)

現状実装上でのtax2div.tblの生成方法は以下.

nodes.dmpファイルから、tax_idとdivision_idの対応を取り出し、division.dmpファイルからdivision_idとdivision_nameの対応を取り出し、names.dmpファイルから、tax_idとname_txt(scientific nameのみ)の対応関係を取り出す. その結果を結合して、name_txtとdivision_nameの対応表(tax2div.tbl)を生成している. 結果として以下のような内容のテキストファイルを生成する. これを現在の実装では「ORGANISM-DIVISION対応表」(tax2div.tbl)と呼んでいる.

bacteria       BCT eubacteria     BCT not Bacteria Haeckel 1894      BCT prokaryotes    BCT Azorhizobium   BCT Azorhizobium Dreyfus et al. 1988       BCT Azotirhizobium BCT Azorhizobium caulinodans       BCT Azorhizobium caulinodans Dreyfus et al. 1988   BCT Azotirhizobium caulinodans     BCT Acyrthosiphon pisum symbiont P BCT Buchnera aphidicola    BCT Buchnera aphidicola Munson et al. 1991 BCT "Cellvibrio" Winogradsky 1929  BCT Cellvibrio     BCT

H-inv-INSD対応表取得
処理「H-invID付加」の中でH-invIDを付加する為に必要となる対応表である. H-inv idは、BIRC のサイトから入手している. 今後BIRCとの話し合いにより、以下のURLにDDBJ側からアクセスするのではなく、BIRCの担当者に、DDBJ側のftpサーバに下記のデータを転送してもらうようになる場合もあるとのこと. 動向により対応については変動することがあり得る.

http://h-invitational.jp/hinv/download/acc2hinv_id.txt.gz

取得されるH-inv IDファイルのフォーマットは以下のようになっている.

AB002292.2     HIT000000001.16 HIX0021591.16   HIP000042367.1  KDRI AB002293.1     HIT000000002.15 HIX0012341.15   HIP000204942.1  KDRI AB002294.1     HIT000000003.15 HIX0012978.15   HIP000045190.1  KDRI AB002295.1     HIT000000004.15 HIX0011989.16   HIP000204943.1  KDRI AB002296.2     HIT000000005.15 HIX0201585.1    HIP000032980.1  KDRI AB002297.1     HIT000000006.13 HIX0003327.17   HIP000204944.1  KDRI AB002298.2     HIT000000007.17 HIX0004783.16   HIP000084302.1  KDRI

JPO/KIPOデータ取得
これについては、別途文書化する.

最新リリースデータ取得(Genbank)
ダウンロード元は以下の中から選択する. 定期リリースではリリースファイルをプライベートサイトサイトからダウンロードしてきているということは無い.

ただしNCBIサイトからのダウンロードは非常に低速とのこと. この為通常は、日本のbiomirrorサイトからデータをダウンロードしている. DDBJ側締日直前に他極のリリースが公開された場合、biomirror側のミラーが間に合っていない場合がある. この場合は、2以外のURLからダウンロードすることになる. Genbankの場合は、rsyncでデータ取得ができる模様.

最新リリースデータ取得(EMBL)
ダウンロード元は以下の中から選択する. 定期リリースではデータをプライベートサイトからダウンロードしてきているということは無い.

DDBJから見て、ネットワーク的に一番高速なのが、bio-mirrorの日本サイトとなっており、2が運用では利用されている. この為、通常は以下のURLからデータを入手している.

ftp://bio-mirror.jp.apan.net/pub/biomirror/embl/release

DDBJ側締日直前に他極のリリースが公開された場合、biomirror側のミラーが間に合っていない場合がある. この場合は、2以外のURLからダウンロードすることになる.

通常Dailyデータ取得(Genbank)
Genbankのプライベートサイトから取得する. Genbankリリースの公開日の翌日から、DDBJリリースの締日までのすべてのUpdateファイルを取得する. 利用するファイルは主に以下.

ftp://ftp-private.ncbi.nih.gov/ ファイル名 ncbi.ncMMDD.flat.gz     (MMDDは月日) ncbi.nc_prim.YYYY.MMDD.gbff.gz

実際のファイル更新日も確認する必要がある.

通常Dailyデータ取得(EMBL)
EMBLのプライベートサイトから取得する. EMBLリリースの公開日の翌日から、DDBJリリースの締日までのすべてのUpdateファイルを取得する.

URL ftp://ftp-private.ebi.ac.uk/updates/ の下の以下のファイル名のファイル ebir{リリース番号}u{3ケタ連番}.dat.gz

TPAデータ取得(Genbank)
GenbankのTPAリリースデータは毎日作成されており、Daily Updateのデータとマージする必要は無い. Genbank TPAの以下のファイルを取得して処理すればよい. TPAリリース(genbank)の元データファイルは以下のものである.

取得先 ftp://ftp-private.ncbi.nih.gov/ ncbi.tpa_cu.gbff.gz   (cumulative、updateを集積したファイル) ncbi.nc_tpa.MMDD.YYYY.gbff.gz (日々のupdateファイル)

TPA Daily、TPAリリースデータ取得(EMBL)
EMBLのTPAデータはDaily Updateとリリースデータをマージする必要がある. 以下のファイルを取得している.

リリースデータの取得先は通常リリースデータの取得先と変わらない.

ftp://ftp-private.ebi.ac.uk/updates/ tpa_ebir{リリース番号}u{3桁連番}.dat.gz

ファイルを元データとして取得している.

ただし、EMBL TPAについてはリリース106から廃止になっているとのこと. EMBL　TPAのデータ処理は廃止される.

CON Dailyデータ取得(Genbank)
Genbankリリース締日の翌日からDDBJ締日までの、DailyUpdateを取得する. データファイルは、CONとアノテーションつきCONの2種類をすべて取得する.

ftp://ftp-private.ncbi.nih.gov/ ファイル名 ncbi.con_nc.MMDD.YYYY.gbff.gz   ncbi.con_nc_annot.MMDD.YYYY.gbff.gz

CON Dailyデータ取得(EMBL)
EMBLリリース締日の翌日からDDBJ締日までの、Daily Updateを取得する. CONとアノテーションつきCONの2種類をすべて取得する.

プライベートサイト上のデータを利用する. ディレクトリ ftp://ftp-private.ebi.ac.uk/updates/ ファイル名 con_ebir{リリース番号}u{3桁連番}.dat.gz   ann_ebir{リリース番号}u{3桁連番}.dat.gz

最新データ取得(DDBJ)(全データ含む)
現状、DDBJに対して直接データ登録申請があったデータについては、別業者（日立ソリューションズ）の別システムによりデータ管理がされている. この為、このシステムの担当者からDDBJフラットファイルフォーマット形式のデータを受け取り、これを定期リリース作成処理業務の流れに乗せている（ただし、このフローについては新設されたフローの為、実施回数が少なく、今後、変更される場合もある. ）

現状実装に依存するが、受け渡されるフラットファイルデータが置かれるサーバは、

guanine.nig.ac.jp

となっている. 置かれるデータのディレクトリ構造は以下のようになっている.

4のデータは、確認後１にマージしている.

suppressed/killedリスト取得・削除リスト作成（Genbank）
Genbank/EMBLのプライベートサイト上に配置されるファイルで、3極間でデータ交換を行っているリストファイルである. リストファイルのうち、killedlistとは、当該リリースで削除されたエントリのアクセッション番号がリストされたファイル、supressedlistとは、削除されないが、3極間で公開が一旦抑止されたエントリのアクセッション番号がリストされたファイルである. Supressed/killedlistから削除リストを作成し、公開データから除外するエントリを確定させる.

取得サイト ftp:ftp-private.ncbi.nih.gov/

ファイル名

GbKillList.MMDD.YYYY.gz   GbSupplist.MMDD.YYYY.gz

また、NCBIは、毎週日曜日にリストが更新されるので、それ以降に確認して取得する.

GbKillListのフォーマット例 GG696360.1|16-JUL-2009|3706562578|34659 GG696359.1|16-JUL-2009|2767829800|34659 GG696358.1|16-JUL-2009|118831816|34659 GG696357.1|16-JUL-2009|124714995|34659 GG696356.1|16-JUL-2009|3543363442|34659 GG696355.1|16-JUL-2009|182149529|34659 GG696354.1|16-JUL-2009|805085523|34659 GG696353.1|16-JUL-2009|457835183|34659 GG696352.1|16-JUL-2009|3259601301|34659 GG696351.1|16-JUL-2009|3932470382|34659 GG696350.1|16-JUL-2009|2549295154|34659 GG696349.1|16-JUL-2009|2008650908|34659 GG696348.1|16-JUL-2009|3290618472|34659

GbSuppListのフォーマット例

AAZA01000094.1|11-APR-2007|58150734|17707 AAZA01000093.1|11-APR-2007|2933933847|17707 AAZA01000092.1|11-APR-2007|437476101|17707 AAZA01000091.1|11-APR-2007|1285497225|17707 AAZA01000090.1|11-APR-2007|962441115|17707 AAZA01000089.1|11-APR-2007|4137895797|17707

この２つのリストをマージして、先頭カラムのみのリストファイル（削除リスト）を作成する.

suppressed/killedリスト取得・削除リスト作成（EMBL）
ファイル取得元 ftp://ftp-private.ebi.ac.uk/livelist

ファイル名

embl_killlist.YYYYMMDD embl_supplist.YYYYMMDD

Genbankと同様に、削除リストを作成する. 元ファイルのファイルフォーマット自体はGenbankのものと変わらない. データ処理方法もGenbankの場合と変わらない.

各極　由来エントリの抽出作業
3極各極に割り当てられているアクセッション番号のプレフィックスをもとに、各極のリリースデータ（フラットファイル）から、各極由来データを抽出する作業を指す. このプレフィックス割り当ては3極間の合意で決定されている. 今後もプレフィクスの割り当ては3極の協議のもとに継続的に決められていき増加していく. 現時点でのプレフィックスの各極の区分は以下のURLを参照.

http://www.ddbj.nig.ac.jp/sub/prefix.html

2010年10月現在、処理で利用されているプレフィックス割り当ては以下のようになっている（これは変動する）.

DDBJ由来エントリについては、DDBJ保持のRDBMS(日立製作所製HiRDB)にDDBJ由来のデータを保持しており、ここから直接抽出する為、プレフィックス判断での由来エントリ抽出処理は必要ない.

エラーチェック処理
本項目については、当初エラーチェック処理について、以下の現状実装のフォーマットチェック処理しか記述していない. まずこれでテスト実装を作る. 但し、データの印字位置等の単純なフォーマットチェックについては、データ出力部分の処理と考え、エラーチェック項目としては、ここにわざわざ挙げない.

フォーマットチェック作業(Genbank/EMBL/DDBJ)（現状）
現状の実装では外部（Genbank/EMBL）由来のデータは、一度DDBJフォーマットに変換を行ってから、DDBJフラットファイルとしてフォーマットチェック、エラーチェックを実施している. 現在、実装されているDDBJフラットファイルフォーマットに対するチェック項目は以下のようになっている. ただしこれが、エラーチェックとして十分条件ということではない. 現状実装の仕様として示す.

現状実装でのDDBJフォーマットチェック内容

LOCUS行、DEFINITION、ACCESSION、VERSION、KEYWORDS、SOURCE、ORGANISM、REFERENCE、JOURNAL、FEATURES、BASE　COUNT、ORIGINと//が存在するかを確認している. また、qualifierのなかで、/organismと/mol_typeが存在するかを確認している. そして、各項目についての出現回数を、カウンターで保持している. また旧フォーマットか新フォーマットかの判別は、LOCUS行の51行目が空白、52～54カラム目が大文字アルファベット,55カラム目が空白であるか. をみて判別している. この条件が成立すれば、旧フォーマット、成り立たなければ新フォーマットと判断している. は、エラーにしている. ロジックの結論としては、12カラム目が空白以外の文字となっていれば、13カラム目と文字がくっついてしまうのでエラーということ ACCESSIONが6桁か8桁かを判別. 6桁の場合、1桁目がアルファベットで、2文字目以降6文字目までが数字であることを確認する. 8桁の場合2桁がアルファベットで3桁目以降8文字目まで数字であることを確認する. 12,13,14桁の場合、先頭4文字がアルファベットで、12,13,14桁目までが数字であることを確認. ハイフンでつないでいた場合、-の後のアクセッション番号も以上チェックしてきた6桁、8桁、12,13,14桁のフォーマット規則にしたがっているかを確認し、従っていなかったらエラー. AUTHOR定義の中で空行が存在すればエラー. AUTHOR定義の中で、再度AUTHOR行が出てくればエラー リファレンスに関して、エラーとして検出しようとしているのは以下. ファイルで利用されている文字が(0x20)から(0x7e)まででなければエラー. LOCUS行の塩基数とORIGINからの実際の塩基数をカウントした塩基数の数を比較し、異なっていたらエラー. BASE COUNT行の、A,T,C,Gに記述されている塩基数を取得する. 塩基配列の文字が、a, c, g, t, m, r, w, s, y, k, v, h, d, b, n以外であればエラーとする. translation_qualifierが存在するにもかかわらず、protein_idが存在しない場合はエラー. CDSフィーチャー内で、protein_idとtranslationが共に存在することを確認して存在しなければエラー. ただし、qualifierとして、"pseudogene"または"non_functional"または"pseudo"が、同一フィーチャー内に存在すればCDSは偽なのでエラーとしない. 各qualifierが、ダブルコーテーションで囲まれているかを確認. 囲まれていなければエラー. エントリ内でsourceフィーチャー行の後、ORIGINまたはBASE COUNT行が出力されるまでをチェック対象範囲としている. フィーチャー行はチェック対象にしない. 行の先頭21文字が空白でない場合はフィーチャー行と判定している. 先頭に空白が入っていて、そのあと空白以外の文字列が続いたらフォーマットエラー. 新旧のフォーマットがあり、その両方に対応. 新フォーマットでは、配列種類が のいずれかであることを確認している. 旧フォーマットの場合は、 のいずれかであることを確認している. 違っていたらエラー 暦に従った日付の存在確認まではしていないが、月名、日付(1～31)のチェックは行っている. アクセッション番号が、6桁と8桁12桁13桁14桁の場合に分け、Prefixのチェックを行う. また、ハイフンで続けられているのか(連番表示になっているのか)を確認する. ハイフンで続けられている場合、ハイフンで続けられているアクセッション番号のフォーマットチェックも行う. それぞれの桁数で、正しいと認められているPrefixは以下のように定義されている.
 * 1) 各項目の存在確認
 * 1) COMMENT以外での空白行の確認
 * 2) *一行に何も文字列がない場合
 * 3) *一行がスペースのみの場合
 * 1) 各フィーチャー行の開始カラム位置の確認.
 * 1) accession行のフォーマットチェック
 * 1) AUTHOR行のチェック.
 * 1) AUTHOR行のチェック.
 * 1) *AUTHOR行が改行のみなのに、CONSRTM行が存在しない場合はエラー. (CONSRTMが存在すれば、OK)
 * 2) *REFERENCE行に対して、JOURNAL行が対応しなければエラー.
 * 3) organelle qualifierフォーマットチェック. 以下の旧式のqualifierが存在したらエラー
 * "                    /mitochondrion",
 * "                    /kinetoplast",
 * "                    /chloroplast",
 * "                    /chromoplast",
 * "                    /cyanelle",
 * 1) 文字コードチェック
 * 1) LOCUS行チェック
 * 1) BASE_COUNT行フォーマットチェック.
 * 1) 不正配列文字チェック.
 * 1) qualifierチェック
 * 1) CDSフィーチャーチェック
 * 1) qualifierチェック
 * 1) locus名存在フィールド(13桁目～22桁目）のフォーマットの確認.
 * 1) LOCUS行内で定義されている配列種類の確認.
 * "      ",     /* 空白7個 */
 * "DNA   ",
 * "RNA   ",
 * "cRNA  ",
 * "tRNA  ",
 * "rRNA  ",
 * "mRNA  ",
 * "scRNA ",
 * "snRNA ",
 * "snoRNA ",
 * "pre-RNA",
 * "DNA ",
 * "RNA ",
 * "cDNA ",
 * "tRNA ",
 * "rRNA ",
 * "mRNA ",
 * "uRNA ",
 * "scRNA",
 * "scRNA",
 * 1) LOCUS行内の日付の確認
 * 1) アクセッション番号のフォームチェック
 * 1) *6桁エントリで正しいと認められているPrefix
 * "B", "C", "D", "F", "G", "H", "J", "K", "L", "M", "N", "R", "S", "T","U", "V", "W", "X", "Y", "Z"
 * 1) *8桁エントリの場合に正しいと認められているPrefix
 * "AA", "AB", "AC", "AD", "AE", "AF", "AG", "AH", "AI", "AJ", "AK", "AL","AM", "AN", "AP", "AQ", "AS", "AT", "AU", "AV", "AW", "AY", "AZ", "BA", "BB", "BC", "BE", "BF", "BG", "BH", "BI", "BJ", "BK", "BL", "BM", "BN","BP", "BQ", "BR", "BS", "BT", "BU", "BV", "BW", "BX", "BY", "BZ", "CA","CB", "CC", "CD", "CE", "CF", "CG", "CH", "CI", "CJ", "CK", "CL", "CM","CN", "CO", "CP", "CR", "CT", "CU", "CV", "CW", "CX", "CY", "CZ", "DA","DB", "DC", "DE", "DF", "DG", "DH", "DK", "DN", "DO", "DP", "DQ","DR", "DS", "DT", "DU", "DV", "DW", "DX", "DY", "EB", "EC", "ED", "EE","EF", "EG", "EH", "EI", "EJ", "EK", "EL", "EM", "EN", "EO", "EP", "EQ","ER", "ES", "ET", "EU", "EV", "EW", "EX", "EY", "EZ", "FA", "FC", "FD","FE", "FF", "FG", "FH", "FI", "FJ", "FK", "FL", "FM", "FN", "FP", "FQ","FR", "FS", "FT", "FX", "FY", "GD", "GE", "GF", "GG", "GH", "GJ", "GK","GL", "GO", "GQ", "GR", "GS", "GT", "GU", "GW", "HE", "HF", "HG", "HH","HI", "HM", "HN", "HO", "HP", "HQ", "HR", "HS",
 * 1) *12桁エントリは、先頭4桁がアルファベットとして定義されているようだが、先頭1文字の確認しかしていない.
 * 2) *特許の6桁アクセッションエントリで認められているPrefix
 * "A","E',"I"
 * 1) *特許の8桁エントリで認められているPrefix
 * AR", "AX", "BD", "CQ", "CS", "DD", "DI", "DJ", "DL", "DM", "DZ", "EA",
 * "FB", "FU", "FV", "FW", "FZ", "GC", "GM", "GN", "GP", "GV", "HA", "HB",
 * "HC", "HD", "GX", "GY", "GZ", "HJ", "HK", "HL"
 * 1) 必須フィーチャー行について、行数を確認.
 * LOCUS行 1行以外であったらエラー.
 * DEFINITION行 行数が1行以外であったらエラー
 * ACCESSION行 1行以外であったらエラー
 * VERSION行 行数が1行以外であったらエラー
 * KEYWORDS行 行数が1行以外であったらエラー
 * SOURCE行　行数が1行以外であったらエラー
 * ORGANISM行　行数が、2より少ない場合はエラー
 * REFERENCE行 （エラーチェックコードがあるがコメントアウトされている. ）チェックがはずされている.
 * JOURNAL行　（エラーチェックコードがあるがコメントアウトされている. ）チェックがはずされている.
 * ORIGIN行　行数が、１行以外(!=1)であればエラー.
 * SOURCE行　行数が0であればエラー.
 * /organism qualifier行　/organism qualifier行が、sourceより少なければエラー.
 * /mol_type qualifier行　/mol_type qualifier行が、1行以外であったらエラー.  /mol_typeとsourceの出現数が違うとエラー.
 * ORIGINの、配列が、全部nで構成されていたらエラー.

リリース・デイリー結合作業(Genbank)
デイリーデータを更新分データとして、リリースデータにマージしていく. Genbankの場合、updateファイルの名前は、ncbi.nc_prim.YYYY.MMDD.gbff.gzとなっており、YYYY.MMDDの部分が更新日付になっている. この為、この日付の順にファイルを結合していけばよい. たとえば、2011.0105,2011.0106,2011.0107と続いている3つのupdateファイルがあって、それぞれのファイルに、アクセッション番号A000001のエントリが含まれていたとすれば、2011.0107,2011.0106,2011.0105の順でファイルに含まれるエントリの記述が上書きされ、最新の更新内容だけが残るようにファイルを結合する. その結合結果ファイル内のエントリ記述が優先されて残るように、最後にリリースファイルと結合結果ファイルを結合すればよい.

リリース・デイリー結合作業(EMBL)
デイリーデータを更新分データとして、リリースデータにマージしていく. EMBLの場合、updateファイルは、ebir{リリース番号}u{3ケタ連番}.dat.gzと名前付けされており、uの後の3桁連番の番号を優先順位にしてファイルを結合していけばよい. たとえば、uの後の番号の値が、001,002,003と続いている3つのupdateファイルがあって、それぞれのファイルに、アクセッション番号A000001のエントリが含まれていたとすれば、003,002,001の順でファイルに含まれるエントリの記述が上書きされ、最新の更新内容だけが残るようにファイルを結合する. その結合結果ファイル内のエントリ記述が優先されて残るように、リリースファイルと結合結果ファイルを結合すればよい.

リリース・特許データ結合作業(DDBJ)
現状、特許データは、データの提供間隔が不定期なことと、データの即時公開が求められることから、デイリー（日次）作業の中で処理されている. また、現状DDBJの受付データは前述のように、日立ソリューションの管理する別システムで一括管理されるべきであるが、この別システムでは管理されていない. この為、別システムから提供されたDDBJ由来データと、デイリー処理の中で変換、整形されたJPO/KIPOの特許データを定期リリース作業内でマージしている. 日次作業内での、JPO/KIPOからのデータのデータ変換作業については、別資料にまとめる.

削除処理(Genbank)
作成した削除リスト(Genbank)にリストされたアクセッション番号を持つ登録エントリを公開データから除外する.

削除処理(EMBL)
作成した削除リスト(EMBL)にリストされたアクセッション番号を持つ登録エントリを公開データから除外する.

データ変換作業(Genbank)
GenbankフラットファイルフォーマットとDDBJフラットファイルフォーマットは共通点が多いが相違は存在する. GenbankフラットファイルからDDBJフラットファイルへの変換作業が必要になる. この為、このデータ変換作業が必要になる. 以下の変換を行う作業を指す.

DIVISION変換(Genbankデータ)
エントリのDIVISIONの区分の考え方について、DDBJ/Genbank/EMBLの3極間で一致していない為、他極からのデータ受け入れ時にLOCUS行のディビジョンの項目の書き換えが必要になる. このディビジョンの書き換えを行う作業である. Genbank側エントリのフラットファイル上ORGANISM行の13-24カラム目が、”Homo Sapiens”である場合、LOCUS行表示のディビジョンをPRIからHUMに変換する.

(変換前) 1   6   11   16   21   26   31   36   41   46   51   56   61   66   71   76   81 LOCUS       AGGGLINE                7360 bp ss-DNA     linear   PRI 31-NOV-2009 LOCUS      AGGGLINE                7360 bp ms-DNA    linear   PRI 31-NOV-2009

(変換後) 1   6   11   16   21   26   31   36   41   46   51   56   61   66   71   76   81 LOCUS       AGGGLINE                7360 bp    DNA     linear   PRI 31-NOV-2002 LOCUS      AGGGLINE                7360 bp    DNA     linear   HUM 31-NOV-2009

LOCUS行書き換え
以下の書き換えを実施している. Genbank元データにある、LOCUS行の分子種の頭にある、”ss-“,”ds-“,”ms-“を削除する. Genbankデータでは、それぞれの接頭辞は、strandnessを表し、 ss- → single ds- → double ms → mixed との対応になっている. DDBJではこれを削除している. 変換例については、上を参照.

VERSION行書き換え
Genbank側データにある、 VERSION行のGI番号の表示を削除する. （GIは、Genbank側が付与している通し番号）

Genbank側エントリデータ（例）

VERSION    AB000001.1  GI:1754539

DDBJ側同一エントリデータ（例）

VERSION    AB000001.1

/oraganelle書き換え
外部から入ってきたエントリの中で、以下の表の変換前の記述があった場合、以下の表の変換後のようにqualifierの書き換えを行う.

MGD-MGI書き換え
Genbank由来のデータの中の、Feature行中の/db_xrefの値から、MGD:を削除する. ここで、MGD=(Mouse Genome Database)、MGI=(Mouse Genome Informatics)であり、Genbank/EMBLから流入してくるデータの中にMGD:MGI表記をしているデータがあるのに対して、DDBJがMGI表記の変換作業を行っていると思われる. この変換作業の過去の経緯については失われてしまっている. 大元のhttp://www.informatics.jax.org は、MGI:表記を採用している.

例を取って示すと、 /db_xref=”MGD:MGI=1” /db_xref=”MGD:MGI=3557973”

となっている/db_xrefを、 /db_xref=”MGI=1” /db_xref=”MGI=3557973”

とMGD:MGIから、MGD:を削除する. これを該当する全エントリに対して行う.

BASE COUNT変換
Genbank由来エントリには、BASE COUNT行にあたる行は存在しない. この為、塩基配列の情報から生成する. DDBJでは、BASE COUNT行を廃止していない為、以下のようにして生成を行う. 1   6   11   16   21   26   31   36   41   46   51   56   61   66   71 BASE COUNT    123456789 a    123456789 c    123456789 g    123456789 t 現状の実装では、BASE_COUNT行が存在しない場合は、ORIGIN行後の配列のテキストデータをもとに、それぞれ”a”,”c”,”g”,”t”の文字の出現回数を集計し、BASE_COUNT行を生成している. BASE_COUNT行の挿入位置は、エントリの最終行に挿入する. ただしDIVISIONがCONのもの、TPAかつCONのものについては、BASE_COUNT行は挿入しない.

H-InvID付加
以下のsourceフィーチャーにおける/db_xref="H-InvDB:H-Inv ID"行の挿入処理を行う. (変換前) 1   6   11   16   21   26   31   36   41   46   51   56   61   66   71   76   81      source          1..5589 /clone="hf00223s1" /clone_lib="pBluescriptII SK plus" /db_xref="taxon:9606" /mol_type="mRNA" (変換後) 1   6   11   16   21   26   31   36   41   46   51   56   61   66   71   76   81      source          1..5589 /clone="hf00223s1" /clone_lib="pBluescriptII SK plus" /db_xref="H-InvDB:HIT000000001" /db_xref="taxon:9606" /mol_type="mRNA" 挿入情報の抽出方法 現状実装されている変換処理方法は以下.

「H-inv-INSD対応表取得」で取得されたアクセッション番号(含むバージョン)とH-invIDの対応表を突き合わせる. AB002292.2     HIT000000001.16 HIX0021591.16   HIP000042367.1  KDRI AB002293.1     HIT000000002.15 HIX0012341.15   HIP000204942.1  KDRI AB002294.1     HIT000000003.15 HIX0012978.15   HIP000045190.1  KDRI AB002295.1     HIT000000004.15 HIX0011989.16   HIP000204943.1  KDRI AB002296.2     HIT000000005.15 HIX0201585.1    HIP000032980.1  KDRI AB002297.1     HIT000000006.13 HIX0003327.17   HIP000204944.1  KDRI AB002298.2     HIT000000007.17 HIX0004783.16   HIP000084302.1  KDRI

対応表上に一致するエントリがあれば、エントリ（フラットファイル）上のFEATURE行からORIGIN行の間で、qualifierをASCII文字列として比較して降順になるように挿入位置を決めて、”db_xref=”HinvDB:…”を挿入する. 現状の実装上での作業では、加工前データに、”db_xref=”HinvDB:…”のパターンを含む行があれば、それをすべて削除してから、改めて、上記の挿入作業を行っている. また、sourceフィーチャーが複数ある場合もあるが、現状では特別な対応はしていない. フォーマット内での最初のsourceフィーチャーにH-invIDを付加する.

Division変換作業(EMBL)
DIVISIONの区分の考え方について、DDBJ/Genbank/EMBLの3極間で一致していない為、DDBJ側へデータ受け入れ時に変換が必要になる. EMBLフォーマットでは、DataClassとTaxonomic Divisionの両方がID行の中で表示されており、EMBL->DDBJフォーマットでのDivisionの変換規則が必要になる. 以下に変換ルールを示す.

Division変換ルール

EMBLはData ClassとTaxonomic Divisionの考え方があり、その両方をID行に表記しているが、DDBJは、Divisionの1区分である為、EMBLのDataClassとTaxonomic Divisionを合成してDivisionに変換する.

まず、DataClassを見る. 以下の表の変換時の考え方に従う.

その中で、Taxonomic Division記載を採用するルールになっているものについては、以下の表に従って変換を行う.

(3)	(2)の変換後、ディビジョンがEST、GSS、HTG、HTC、CON、PAT、UNA、STS、SYN、TSAのもの以外については、さらに、フラットファイルエントリのORGANISM行に記述された生物名(X)を取得. Xと「ORGANISM-DIVISION対応表取得」で作成した、tax2div.tblのファイルの生物名欄を照合し、一致するものがあれば、その行の対応ディビジョン名を採用して、そのディビジョン名に書き換える（上書きする. ）

（現状だとデータクラスがEST、GSS、HTG、HTC、CON、PAT、UNA、STS、SYN、TSAであるエントリ以外は2重に変換がかかる場合があり処理として余計な可能性があるので、実験して確認する） （現状実装では、1段目の変換でTGNをPLNに一旦変換して、2段目の変換でデータを救っている. 最終結果としては問題ない可能性があるが、ここでは、1段目の変換もTGN->SYNと変換を記述しておく. ）

データ変換作業(EMBL)
(1)EMBL-DDBJデータ変換作業 EMBL由来のデータを受け付ける際、EMBLフラットファイルフォーマットとDDBJフラットファイルフォーマットはデータ項目としても、大幅に差異がある為、データ変換作業が必要になる. この為、項目間の対応付け、変換規則の定義が必要になる. これらの対応付け、変換規則を以下に示す. ただし、本項目ではEMBL→DDBJへの変換作業を説明している為、EMBLフラットファイルフォーマットの項目を主にして、それに対してDDBJ側の項目がどう対応しているかの観点で記述している. またDDBJフォーマットの書式的な詳細や意味背景については、「DDBJ flat file format Guide」を参照.

分子タイプ表記の変換について EMBLフラットファイルフォーマットのマニュアルからは、EMBLフォーマットのID行の分子タイプは、FT部の必須qualifierの/mol_type qualifier valueに一致するようにしている. DDBJフォーマットでは、対応する表示値をLOCUS行の所定位置に記載することになっている. /mol_typeのqualifier の対応値と表示値の対応表は以下のよう(DDBJ flat file format guideより)

OG行変換対応表

OG行変換対応表

その他、以下の変換作業を行う.

(2)/oraganelle書き換え
外部から入ってきたエントリの中で、以下の表の変換前の記述があった場合、変換後のようにqualifierの書き換えを行う.

(3)MGD-MGI書き換え
Feature行中の/db_xrefの値から、MGD:を削除する. ここで、MGD=(Mouse Genome Database)、MGI=(Mouse Genome Informatics)であり、Genbank/EMBLから流入してくるデータの中にMGD:MGI表記をしているデータがあるのに対して、DDBJがMGI表記の変換作業を行っていると思われる. この変換作業の過去の経緯については失われてしまっている. 大元のhttp://www.informatics.jax.orgは、MGI:表記を採用している.

例を取って示すと、 /db_xref=”MGD:MGI=1” /db_xref=”MGD:MGI=3557973”

となっている/db_xrefを、 /db_xref=”MGI=1” /db_xref=”MGI=3557973”

とMGD:MGIから、MGD:を削除する. これを該当する全エントリに対して行う.

(4)H-InvID付加
以下のsourceフィーチャーにおける/db_xref="H-InvDB:H-Inv ID"行の挿入処理を行う.

(変換前) 1   6   11   16   21   26   31   36   41   46   51   56   61   66   71   76   81     source          1..5589 /clone="hf00223s1" /clone_lib="pBluescriptII SK plus" /db_xref="taxon:9606" /mol_type="mRNA"

(変換後) 1   6   11   16   21   26   31   36   41   46   51   56   61   66   71   76   81     source          1..5589 /clone="hf00223s1" /clone_lib="pBluescriptII SK plus" /db_xref="H-InvDB:HIT000000001" /db_xref="taxon:9606" /mol_type="mRNA"

特許データ対応作業
現状、特許データの対応作業については、定期リリース作成のタイミングでは行っておらず、またデータ提供のタイミングも不定期でありながら、即時反映が必要な為、日次リリース業務の中でデータ変換などの対応作業が行われている. 現状行われている、特許データへの対応作業は、別資料「XXXXXX」にまとめるので参照願いたい.

INSD XMLファイルの作成
DDBJフラットファイルフォーマットとINSD　XMLファイルのデータ項目については、別添の富士通資料「INSD-XML変換処理（仕様書）」を参照.

公開フラットファイルの分割、作成
ファイルの分割は、ファイルサイズを目安に行われており、1.5GB（展開時）を単位にファイルを分割している. 1.5GBのファイルサイズについては明確な規定があってそうなっているわけではないが、過去300MB程度であったファイルサイズを1.5GBに引き上げている経緯がある.

公開するデータについてファイル内のエントリについては、公開する際に以下のルールでソートを行なわれていることを保証する必要がある.


 * (1)エントリの集合（集合X）を、ディビジョン単位で分割（Xn）
 * (2)Xnをアクセッション番号のプレフィックスで分割（Xnm）
 * (3)Xnmを、アクセッション番号の数字部分をキーに昇順にソート
 * (4)ソート順にファイルに結合. しかし複数ファイル内でディビジョンが混在することは無くディビジョンは分割される.

また、ファイル内のエントリ数については統計情報としてリリースノート内に記載する為、カウントしておく.

リリースデータ各種インデックスファイル作成
以下の(1)～(4)の4種のインデックスファイルを作成する.

(1)	ddbjacc#.idx(アクセッション番号インデックスファイル)
記述例 AD000016    MSGY23       BCT AD000016 AD000017    MSGY409      BCT AD000017 AD000018    MSGY151      BCT AD000018 AD000019    MSGY223      BCT AD000019 AD000020    MSGY348      BCT AD000020 AD000090    CH19F14121   HUM AD000090 AD000091    CH19F15314   HUM AD000091 AD000092    CH19HHR23    HUM AD000092 AD000671    AD000671     HUM AD000671 AD000684    CH19R30879   HUM AD000684

第一列目は、対象となるアクセッション番号(バージョン番号含む)で、第二列目が、LOCUS名、第三列目が、対象アクセッション番号の属するディビジョン、第四列目が、第一列目のアクセッション番号のプライマリアクセッション番号になる (第一列のアクセッション番号がプライマリであれば、第一列と第四列は同じになる). 第二列目は14桁目から開始、第三列は27桁目から開始、第四列は31桁目から開始する.

フラットファイル中に記載されているセカンダリアクセッション番号について、以下の場合はエントリの記述エラーとして検出した上で除外する.


 * １つのエントリの中で記載されているセカンダリアクセッション番号が重複している場合.
 * 記載されているセカンダリアクセッション番号のプレフィックスが、プライマリアクセッション番号と異なる場合.
 * 省略表記で記述されているセカンダリアクセッション番号が、逆順になっている場合. （フォーマットとして不可の為）

(2)	ddbjkey#.idx(キーワードフレーズインデックスファイル)
DDBJフォーマットの“KEYWORDS”の部分に、対象キーワードが記載されているエントリのアクセッション番号をリストしたファイル

ファイル記述例

"COAT PROTEIN            SMO511347    VRL AJ511347 'TNPA GENE             UBA564903    BCT AJ564903 'ZINC-FINGER' MOTIF             PRNS53       VRL X60546 (+) MATING TYPE SURFACE PROTEIN             ABGPSSP      PLN M94861 (1,3             TABETGLUB    PLN Z22874 (1,3)-BETA-D-GLUCAN BINDING PROTEIN             AJ606470     INV AJ606470 (1,3)BETA-GLUCAN SYNTHASE             NCU09275     PLN U09275 (1,4)-BETA-D-ARABINOXYLAN ARABINOFURANOHYDROLASE             ANAXHA       PLN Z78011      ANTUAXHA     PLN Z78010 (1,6)-BETA-GLUCAN BIOSYNTHESIS             YSAKRE1A     PLN M81588 (1-3)-BETA-GLUCANASE             NTSP41AGN    PLN X81560      PA13BGPT     PLN X57794 (1-3,1-4)-BETA-D-GLUCANASE             HVBDG        PLN X52572 (1-4)-BETA-MANNAN ENDOHYDROLASE             CAR278996    PLN AJ278996    CAR293305    PLN AJ293305 (2',5'-OLIGOISOADENYLATE SYNTHETASE-DEPENDENT)             AL138776     HUM AL138776 (2'-5') OLIGO(A) SYNTHASE E16 SSO4G06     EST F14610 (2'-5')OLIGOADENYLATE SYNTHETASE HSA225089   HUM AJ225089    HUMSYN25A    HUM D00068 SSA225090   MAM AJ225090

リスト中の1エントリは2行以上に渡り、１行目に、キーワードを記述し、２行目以降は、13桁目以降にLOCUS名、ディビジョン、アクセッション番号が記述される. 同一のキーワードが複数のエントリから参照されている場合は、2行目以降に列挙される.

GSS AB004332       GSS     AB004332 AB004333       GSS     AB004333 AB004334       GSS     AB004334 AB004335       GSS     AB004335 AB004336       GSS     AB004336 AB004337       GSS     AB004337 AB004338       GSS     AB004338 AB004339       GSS     AB004339 （以下省略）

(3)	ddbjjou#.idx(文献引用インデックスファイル)
リファレンス部に、その文献引用が見られるエントリのアクセッション番号を以下の例のような形式でリストしたファイル.

記述例（リリースノートに記載されているもの. 最新ではない. ）

(ER) AAPS PHARMSCI. 4 (3), DOI 10.1208/PS040315 (2002) AY170916    ROD AY170916 (ER) AM. J. HUM. GENET. 76 (1) (2004) IN PRESS AY753209S1  HUM AY753209    AY753209S2   HUM AY753210 (ER) ARCH. VIROL. (2004) IN PRESS AF531505    VRL AF531505    AY518899     VRL AY518899 AY518900    VRL AY518900    AY518901     VRL AY518901 AY518902    VRL AY518902    AY518903     VRL AY518903 AY518904    VRL AY518904    AY518905     VRL AY518905 AY518906    VRL AY518906    AY518907     VRL AY518907 AY518908    VRL AY518908    AY518909     VRL AY518909 AY518910    VRL AY518910    AY518911     VRL AY518911 AY518912    VRL AY518912    AY518913     VRL AY518913 AY518914    VRL AY518914    AY518915     VRL AY518915 AY518916    VRL AY518916    AY518917     VRL AY518917 AY518918    VRL AY518918    AY518919     VRL AY518919 AY518920    VRL AY518920    AY518921     VRL AY518921 AY518922    VRL AY518922    AY518923     VRL AY518923 AY518924    VRL AY518924    AY518925     VRL AY518925 AY518926    VRL AY518926    AY518927     VRL AY518927 AY518928    VRL AY518928    AY518929     VRL AY518929 AY518930    VRL AY518930    AY518931     VRL AY518931 AY518932    VRL AY518932    AY521234     VRL AY521234 AY521235    VRL AY521235    AY521236     VRL AY521236 AY521237    VRL AY521237    AY521238     VRL AY521238 (ER) ARTERIOSCLER. THROMB. VASC. BIOL. (2004) IN PRESS AY563557    HUM AY563557 (ER) BIOCHEM. BIOPHYS. RES. COMMUN. 325 (1), 203-214 (2004)            AY563137     HUM AY563137 (ER) BIOCHEM. J./10.1042/BJ20030293 HSA496460   HUM AJ496460 2行以上で1エントリとなっている. 1行目にDDBJフラットファイルフォーマットでのJOURNAL行に記載されている内容を記載し、２行目に、アクセッション番号　ディビジョン その他、そのJOURNALを参照しているその他のアクセッション番号を記述している.

(4)ddbjgen#.idx (遺伝子名インデックスファイル)
エントリのフィーチャーテーブル内にその遺伝子名の引用がみられるようなエントリのアクセッション番号をリストしたファイル.

記述例

0610005I04 CH466523       CON     CH466523 0610007C21RIK DP001212       CON     DP001212 0610007C21Rik BC049637       ROD     BC049637 BC057097       ROD     BC057097 CH466524       CON     CH466524 0610007L01Rik BC033455       ROD     BC033455 0610007P06Rik CH466543       CON     CH466543 0610007P08Rik BC026917       ROD     BC026917 BC032964       ROD     BC032964 BC075679       ROD     BC075679 0610007P14Rik AB527053       MAM     AB527053 BC004591       ROD     BC004591 CH466590       CON     CH466590

ファイルフォーマットとしては、1列目が遺伝子名(遺伝子シンボル)、2列目がLOCUS名、3列目がディビジョン、4列目がその遺伝子名をgeneフィーチャー内で参照しているエントリのプライマリアクセッション番号のリストになる.

遺伝子名は、エントリのフィーチャーテーブルのgeneフィーチャー中の”/gene”　qualifierの値の部分を切り出し、エントリのアクセッション番号と対応させる.

リリースデータ各種統計データ作成処理
DDBJでは作成したリリースデータについて各種統計情報をリリースノート作成の為に内部的に作成している. ここでは現運用で作成している統計情報について示す. （ただし、現状作成している統計情報については十分でないという認識がDDBJ運用担当側にもあり、この部分についてはシステム実装に引きずられて現状になっている部分がある. この為、仕様がこのままでいいのかについては検討が必要になっている. ここでは、現状仕様を必要条件とみなして記述する. ）

バンク別統計作成
バンク（極） (DDBJ,Genbank,EMBL)別に、エントリ数、塩基数の合計を算出する. 全体合計の中で、それぞれのバンクのパーセンテージを （(バンク別の合計)／総合計）×100 で計算してパーセンテージを出力する.

エントリの由来の判別方法は、アクセッション番号のプレフィックスを見て由来極を判別している. 各エントリの塩基数データとしては、各エントリのLOCUS行に記述されている塩基数を利用している.

（参考）現在の出力書式 [Base-Pair] Japan :    9678189269 ( 11.2 % ) Europe :  12371960576 ( 14.4 % ) U.S.A. :  64049800550 ( 74.4 % ) -- Total :   86099950395 Japan: AB number :    393988083 bp                AG number :     699944599 bp （中略） Europe: A number :     18661338 bp                AJ number :     487737652 bp （中略） USA: AA number :    380504249 bp                AC number :   25027123025 bp (中略) [Entry] Japan :   14410351 ( 17.3 % ) Europe :   8175354 (  9.8 % ) U.S.A. :  60581877 ( 72.8 % ) -- Total :   83167582

Japan: AB number :    336361 entry AG number :    943444 entry (中略) Europe: A number :     56051 entry AJ number :    684204 entry (中略) USA: AA number :    992954 entry AC number :    156027 entry (中略) W number :     95071 entry

=
==========================================================

この統計にはCONとTPAは含まれていない.
 * (1)各極別のエントリ数の合計と全体に対しての割合(%表示)
 * (2)各極別の塩基数の合計と全体総合計に対しての割合(％表示)
 * (3)(1)(2)についてアクセッション番号のprefix別に表示.

また、以下のようなフォーマットの統計情報を生成している.

division       DDBJ entries    DDBJ BP EMBL entries    EMBL BP GenBank entries GenBank BP        total entries   total BP bct     56753   449195044       87540   1047443050      516358  4163118044      660651  5659756138 con    47377   4378863301      91560   11869286047     6117948 200721067234    6256885 216969216582 con_tpa 0      0       0       0       149437  9194327698      149437  9194327698 env    66700   52550761        194555  154330885       2673836 1734185363      2935091 1941067009 est    12405797        6383717713      4782924 2893297078      50170790        28011723327       67359511        37288738118 gss    3247080 2073832484      3826537 2458423134      22670457        15091621153     29744074  19623876771 htc    242274  326717189       250252  255699279       75513   78350002        568039  660766470 htg    2304    307433110       21659   3859617055      121147  20151518333     145110  24318568498 hum    78680   429090464       112080  1188606971      336483  3128764233      527243  4746461668 inv    113451  82759474        140950  690226234       1022680 1321460164      1277081 2094445872 mam    14090   19836440        36825   223009333       197974  461813394       248889  704659167 pat    5089754 3217574950      8122889 3113242691      5051963 2646105691      18264606        8976923332

これの行フォーマットは、

ディビジョン、(そのディビジョンの)DDBJのエントリ数、DDBJの塩基総数、EMBLのエントリ数、EMBLの総塩基数、Genbankのエントリ数、Genbankの総塩基数、三極合計のエントリ数、三極合計の総塩基数

となっている.

リリース統計作成
以下の出力形式で出力. 以下の出力例は、リリース84のリリース統計を省略なしで掲載したもの. 記載項目は、リリースに含まれるファイル名、ファイル内のエントリ数、ファイル内に記載されたエントリの塩基数の合計、ファイルのファイルサイズ.

file name         number of entries   number of bases  file size --- ddbjbct1.seq              131790       609000079      1499001767 ddbjbct2.seq               95940       658148732      1515109991 ddbjbct3.seq                 496       675114051      1513833551 ddbjbct4.seq                 342       662064583      1502706055 ddbjbct5.seq                 390       665466129      1501338045 ddbjbct6.seq                 527       662213863      1510550682 ddbjbct7.seq                 392       658623184      1505012461 ddbjbct8.seq              255569       535706606      1510930543 ddbjbct9.seq              175205       533418911      1319239826 ddbjenv1.seq              567549       412293014      1499000460 ddbjenv2.seq              565631       403091128      1499002279 ddbjenv3.seq              502100       444961361      1499000181 ddbjenv4.seq              708071       267592298      1499000667 ddbjenv5.seq              583383       410088481      1499000468 ddbjenv6.seq                8357         3040727        17848285 ddbjest1.seq              461161       172543195      1499001620 ddbjest2.seq              488834       191334814      1499002623 ddbjest3.seq              496918       205455425      1499001768 ddbjest4.seq              478780       204156006      1499002319 ddbjest5.seq              546359       290295757      1499001906 ddbjest6.seq              550595       337405607      1498999922 ddbjest7.seq              538734       307385395      1499001867 ddbjest8.seq              404238       131048209      1499002213 ddbjest9.seq              487041       208545408      1499001887 ddbjest10.seq             510072       236181629      1499002047 ddbjest11.seq             470074       200802626      1499001715 ddbjest12.seq             372588       132864655      1499001760 ddbjest13.seq             274333        83757095      1499000609 ddbjest14.seq             274453       108111681      1499001758 ddbjest15.seq             379871       176791854      1499003624 ddbjest16.seq             480477       247140692      1499001182 ddbjest17.seq             463501       244800163      1499001047 ddbjest18.seq             452462       248575631      1499003397 ddbjest19.seq             463617       222253422      1499000424 ddbjest20.seq             463379       279705753      1499000704 ddbjest21.seq             468426       286519414      1499000981 ddbjest22.seq             467958       244519654      1499000860 ddbjest23.seq             446929       262920114      1499000922 ddbjest24.seq             504897       278307791      1499001617 ddbjest25.seq             548154       319478099      1499001537 ddbjest26.seq             415399       210159362      1499003344 ddbjest27.seq             433677       254993529      1499002826 ddbjest28.seq             479153       271753833      1499002501 ddbjest29.seq             515361       262365426      1499001791 ddbjest30.seq             451414       242187176      1499000180 ddbjest31.seq             457114       253462807      1499000051 ddbjest32.seq             441763       288539291      1499000368 ddbjest33.seq             409260       292634290      1499002879 ddbjest34.seq             498054       296579976      1499000736 ddbjest35.seq             638308       367524082      1499002579 ddbjest36.seq             471154       299618868      1498999971 ddbjest37.seq             417515       245122171      1499003395 ddbjest38.seq             258191        96931469      1499005434 ddbjest39.seq             258898       104817879      1499003515 ddbjest40.seq             313820       150379822      1499001456 ddbjest41.seq             474660       269396706      1499001591 ddbjest42.seq             479788       266076106      1499000466 ddbjest43.seq             445150       239456023      1499001643 ddbjest44.seq             474265       281008099      1499001378 ddbjest45.seq             518203       259100725      1499000257 ddbjest46.seq             432489       256640446      1499001113 ddbjest47.seq             555950       283413961      1499002312 ddbjest48.seq             429311       246009152      1499003387 ddbjest49.seq             402269       236025680      1499001345 ddbjest50.seq             262855       134081897      1499002865 ddbjest51.seq             267906       109392060      1499005186 ddbjest52.seq             309112       136595664      1499000155 ddbjest53.seq             413684       229732858      1499000127 ddbjest54.seq             558241       318281699      1499001807 ddbjest55.seq             427162       286291642      1499000437 ddbjest56.seq             444735       244820190      1499000083 ddbjest57.seq             474893       279939596      1499002887 ddbjest58.seq             429144       234251183      1499001866 ddbjest59.seq             480411       269515155      1499002145 ddbjest60.seq             448478       275291389      1499001297 ddbjest61.seq             421487       241671560      1499000982 ddbjest62.seq             491730       333610368      1499001995 ddbjest63.seq             446791       273636492      1499000623 ddbjest64.seq             447565       224523846      1499000582 ddbjest65.seq             434428       268477638      1499001510 ddbjest66.seq             434837       281006994      1499002002 ddbjest67.seq             395135       256369979      1499000233 ddbjest68.seq             430251       239307712      1499002871 ddbjest69.seq             424855       236455548      1499000459 ddbjest70.seq             428355       237589484      1499000309 ddbjest71.seq             427310       226163639      1499002746 ddbjest72.seq             507292       295176938      1499002111 ddbjest73.seq             542396       331613403      1499001790 ddbjest74.seq             569870       340038106      1499000620 ddbjest75.seq             466513       308166684      1499001008 ddbjest76.seq             471612       282804448      1499001515 ddbjest77.seq             412719       304822703      1499002057 ddbjest78.seq             484332       296404472      1499000560 ddbjest79.seq             380126       271118566      1499003519 ddbjest80.seq             395730       269876029      1499001465 ddbjest81.seq             381512       252802889      1498999964 ddbjest82.seq             407798       332955860      1499003414 ddbjest83.seq             462176       288361372      1499000941 ddbjest84.seq             465964       326305752      1499001537 ddbjest85.seq             540843       293998931      1499003569 ddbjest86.seq             545070       199158367      1499002293 ddbjest87.seq             496758       308940766      1499000832 ddbjest88.seq             492044       324404276      1499001660 ddbjest89.seq             504759       305288250      1499002214 ddbjest90.seq             671884       325489809      1499001266 ddbjest91.seq             593007       252155010      1499002548 ddbjest92.seq             457528       298104330      1499000831 ddbjest93.seq             534054       315856944      1499000593 ddbjest94.seq             553650       177942641      1499001576 ddbjest95.seq             508103       321561666      1499002023 ddbjest96.seq             474608       265741672      1499004774 ddbjest97.seq             474346       223038618      1499000908 ddbjest98.seq             599938       194968143      1499000807 ddbjest99.seq             506351       260252255      1499000125 ddbjest100.seq            561641       268598347      1499001636 ddbjest101.seq            493736       298333774      1499000542 ddbjest102.seq            497783       303942188      1499000574 ddbjest103.seq            549295       254782659      1499001953 ddbjest104.seq            568201       234520210      1499001361 ddbjest105.seq            475628       300051146      1499001653 ddbjest106.seq            415950       281907305      1499001811 ddbjest107.seq            472522       282364352      1499003038 ddbjest108.seq            453117       306313418      1499001081 ddbjest109.seq            471744       341190871      1499001798 ddbjest110.seq            403328       275676740      1499001540 ddbjest111.seq            434184       294909689      1499000184 ddbjest112.seq            453438       256823832      1499001951 ddbjest113.seq            438454       285890379      1499001324 ddbjest114.seq            481529       278986073      1499002070 ddbjest115.seq            365623       227628271      1499002824 ddbjest116.seq            477448       243761359      1499002224 ddbjest117.seq            484236       271562368      1499001080 ddbjest118.seq            398017       254324214      1499001297 ddbjest119.seq            482956       290910412      1499001132 ddbjest120.seq            390784       258454263      1499001340 ddbjest121.seq            364650       210433822      1499002849 ddbjest122.seq            454465       112312578      1499000652 ddbjest123.seq            658784       337639004      1499001934 ddbjest124.seq            446915       270140649      1499001425 ddbjest125.seq            524251       275046473      1499000903 ddbjest126.seq            541254       277658276      1499004798 ddbjest127.seq            519819       337634224      1499000228 ddbjest128.seq            528922       323992655      1499001994 ddbjest129.seq            548076       328155229      1499000833 ddbjest130.seq            500189       178956108      1499001269 ddbjest131.seq            451631        71569049      1499002992 ddbjest132.seq            460178       201131625      1499000744 ddbjest133.seq            475838       311215019      1499001376 ddbjest134.seq            414608       280245541      1499002175 ddbjest135.seq            480485       289065499      1499001196 ddbjest136.seq            464879       211424725      1499000097 ddbjest137.seq            471640       283376513      1499001036 ddbjest138.seq            438145       297995644      1499003478 ddbjest139.seq            461439       269656796      1499001430 ddbjest140.seq            477716       285684900      1499000639 ddbjest141.seq            320198       213918467      1499005904 ddbjest142.seq            373713       226399251      1499002698 ddbjest143.seq            427504       258306349      1499001505 ddbjest144.seq            493419       291116016      1499001964 ddbjest145.seq            496336       277317450      1499003357 ddbjest146.seq            429478       157961925      1363570105 ddbjgss1.seq              478655       345596411      1499003000 ddbjgss2.seq              445953       341915651      1499001919 ddbjgss3.seq              441912       333895046      1499004034 ddbjgss4.seq              565891       274044751      1499001928 ddbjgss5.seq              489540       254358738      1499001276 ddbjgss6.seq              466474       255949123      1499001479 ddbjgss7.seq              391808       194344962      1499001301 ddbjgss8.seq              418343       210701962      1499002870 ddbjgss9.seq              498369       289732708      1499001267 ddbjgss10.seq             556938       310988815      1499000591 ddbjgss11.seq             492177       292954686      1499001046 ddbjgss12.seq             538066       350311720      1499001572 ddbjgss13.seq             518512       361557188      1499000313 ddbjgss14.seq             514945       356333435      1499000531 ddbjgss15.seq             604578       340238052      1499002185 ddbjgss16.seq             606483       368410843      1499002576 ddbjgss17.seq             563371       320891257      1499000504 ddbjgss18.seq             522914       372834366      1499001523 ddbjgss19.seq             511376       338815058      1499001569 ddbjgss20.seq             576509       368102123      1499001365 ddbjgss21.seq             578462       412788241      1499002320 ddbjgss22.seq             537729       323399279      1499001199 ddbjgss23.seq             480704       284989730      1499001712 ddbjgss24.seq             517979       338589253      1498999955 ddbjgss25.seq             530828       340103314      1498999962 ddbjgss26.seq             537064       351561883      1499001591 ddbjgss27.seq             591675       291827733      1499001281 ddbjgss28.seq             577687       288360308      1499000174 ddbjgss29.seq             555357       321415490      1499000696 ddbjgss30.seq             464052       384259167      1499002868 ddbjgss31.seq             475423       345660195      1499003017 ddbjgss32.seq             527132       372765628      1499001619 ddbjgss33.seq             598035       344714328      1499000340 ddbjgss34.seq             448017       332936299      1499002026 ddbjgss35.seq             524549       359009179      1499001170 ddbjgss36.seq             512279       243390841      1499001680 ddbjgss37.seq             574064       299731526      1499002591 ddbjgss38.seq             420660       307464240      1499001771 ddbjgss39.seq             409695       336745142      1499000236 ddbjgss40.seq             423829       347417677      1499002832 ddbjgss41.seq             415079       330766032      1499000621 ddbjgss42.seq             423436       345343337      1499003073 ddbjgss43.seq             421333       347712891      1499001655 ddbjgss44.seq             411781       331287836      1499003337 ddbjgss45.seq             518094       344070472      1499000314 ddbjgss46.seq             538391       341699673      1499000322 ddbjgss47.seq             596874       401340536      1499001118 ddbjgss48.seq             587735       413144129      1499002189 ddbjgss49.seq             477084       327782140      1499001079 ddbjgss50.seq             506365       302168684      1499000708 ddbjgss51.seq             530398       336184818      1499000625 ddbjgss52.seq             518627       388871880      1499001423 ddbjgss53.seq             553662       426655624      1498999947 ddbjgss54.seq             544414       369258984      1499003377 ddbjgss55.seq             536828       327990848      1499001511 ddbjgss56.seq             513025       358068610      1499000784 ddbjgss57.seq             492448       442884170      1499001171 ddbjgss58.seq             505038       433245504      1499001714 ddbjgss59.seq             165428       146294255       487656669 ddbjhtc1.seq              273979       358297388      1499001746 ddbjhtc2.seq              294060       302469082      1078886159 ddbjhtg1.seq               11401      1118110528      1499022921 ddbjhtg2.seq                7563      1118342964      1499135250 ddbjhtg3.seq                5905      1130687868      1499149856 ddbjhtg4.seq                5463      1140183805      1499053297 ddbjhtg5.seq                5341      1144080026      1499177461 ddbjhtg6.seq                5357      1144117237      1499164385 ddbjhtg7.seq                6591      1132560094      1499109186 ddbjhtg8.seq                6850      1143042549      1499127633 ddbjhtg9.seq                6265      1139335912      1499042383 ddbjhtg10.seq               6338      1133331724      1499211508 ddbjhtg11.seq               7032      1123352042      1499191083 ddbjhtg12.seq               7004      1125429879      1499025574 ddbjhtg13.seq               6942      1141395147      1499097178 ddbjhtg14.seq               6969      1135029100      1499073278 ddbjhtg15.seq               6762      1141068386      1499004027 ddbjhtg16.seq               6301      1138826470      1499323140 ddbjhtg17.seq               6654      1139690154      1499016896 ddbjhtg18.seq               8017      1145104894      1499143562 ddbjhtg19.seq               6524      1130250252      1502808179 ddbjhtg20.seq               6607      1159103145      1499096937 ddbjhtg21.seq               6509      1159338008      1499118709 ddbjhtg22.seq               2715       436188314       567630776 ddbjhum1.seq               31402      1044352837      1499125884 ddbjhum2.seq                8099      1069329078      1499132421 ddbjhum3.seq              146205       825806386      1499050481 ddbjhum4.seq               22246      1071955078      1499059477 ddbjhum5.seq              231069       586064086      1499001619 ddbjhum6.seq               88222       148954203       384066382 ddbjinv1.seq              244622       688561722      1499406203 ddbjinv2.seq              421671       459165269      1499000954 ddbjinv3.seq              272809       623761864      1499002435 ddbjinv4.seq              337979       322957017      1280270287 ddbjmam.seq               248889       704659167      1443600930 ddbjpat1.seq             1034540       519788889      1499000074 ddbjpat2.seq              772975       492171094      1499000627 ddbjpat3.seq              719480       345424597      1499000325 ddbjpat4.seq              714257       585668581      1499000840 ddbjpat5.seq              717956       403684360      1499001234 ddbjpat6.seq              733701       312717035      1499001970 ddbjpat7.seq              676573       371377744      1499001229 ddbjpat8.seq              711473       527096488      1499000386 ddbjpat9.seq              928882       529138514      1499000018 ddbjpat10.seq             627855       477944124      1499001844 ddbjpat11.seq             669670       349234173      1498999970 ddbjpat12.seq             500139       619507511      1499324305 ddbjpat13.seq             671359       315600100      1499000896 ddbjpat14.seq             907933       508076703      1499007490 ddbjpat15.seq            1001901       402677994      1499001548 ddbjpat16.seq             849973       582047562      1499000433 ddbjpat17.seq            1416043       337170131      1499000943 ddbjpat18.seq            1312681       190829072      1499969906 ddbjpat19.seq             687582       517110241      1499000096 ddbjpat20.seq            1144153       216406927      1499000513 ddbjpat21.seq            1196707       217269017      1499000638 ddbjpat22.seq             268773       155982475       457297910 ddbjphg.seq                 5631        48751320       119496388 ddbjpln1.seq               96679       958154093      1499001723 ddbjpln2.seq              270367       523703375      1499005944 ddbjpln3.seq               78797       895549404      1499103248 ddbjpln4.seq              310022       590558671      1499000250 ddbjpln5.seq              414756       490886297      1499194603 ddbjpln6.seq              449772       462864432      1499000628 ddbjpln7.seq              252569       253138120       855070564 ddbjpri1.seq               41536      1090844390      1499002015 ddbjpri2.seq               42572       150774779       283554170 ddbjrod1.seq               36625      1015529974      1499021266 ddbjrod2.seq                5893      1092494599      1499101096 ddbjrod3.seq               28129      1073998051      1499002696 ddbjrod4.seq               90958       864958424      1499040254 ddbjrod5.seq              249965       285353744       806635515 ddbjsts1.seq              415836       209655041      1499000086 ddbjsts2.seq              337962       238127682      1499000930 ddbjsts3.seq              564785       186212123      1499001536 ddbjsts4.seq                1333          378082         2763018 ddbjsyn.seq                95428       147013037       517166381 ddbjtsa1.seq              666155       280474917      1499000736 ddbjtsa2.seq              649357       303760362      1499000847 ddbjtsa3.seq               95586       153398647       413051908 ddbjuna.seq                  288          484315         1395932 ddbjvrl1.seq              384903       406960143      1499001493 ddbjvrl2.seq              367549       419629648      1499001211 ddbjvrl3.seq              163988       192098106       675681775 ddbjvrt1.seq              243955       688820350      1499011054 ddbjvrt2.seq               65853       992686470      1499001653 ddbjvrt3.seq              278519       699221296      1499002482 ddbjvrt4.seq              171719       188188330       612550241 -- Total                  128607782    120919931265    444474936330

ddbjacc1.idx                   0               0      1499999996 ddbjacc2.idx                   0               0      1500000025 ddbjacc3.idx                   0               0      1500000032 ddbjacc4.idx                   0               0       517780527 ddbjgen.idx                    0               0       203856388 ddbjjou1.idx                   0               0      1499999852 ddbjjou2.idx                   0               0      1475128090 ddbjjou3.idx                   0               0      1476937605 ddbjjou4.idx                   0               0      1082894912 ddbjkey1.idx                   0               0      1499999975 ddbjkey2.idx                   0               0      1499999980 ddbjkey3.idx                   0               0      1499999989 ddbjkey4.idx                   0               0       495337149

ddbjtpa.seq                 6858        69335748       139789892 ddbjcon_tpa.seq           149437               0       930744031

ddbjcon1.seq              265241               0      1499002888 ddbjcon2.seq              240908               0      1499001281 ddbjcon3.seq              536022               0      1499000604 ddbjcon4.seq              405980               0      1499023388 ddbjcon5.seq              381570               0      1499138880 ddbjcon6.seq              309144               0      1499034974 ddbjcon7.seq              111727               0      1499112948 ddbjcon8.seq              306815               0      1499005364 ddbjcon9.seq              412850               0      1499002004 ddbjcon10.seq             312333               0      1499000149 ddbjcon11.seq             231647               0      1499005799 ddbjcon12.seq             225244               0      1499002702 ddbjcon13.seq             242557               0      1499001404 ddbjcon14.seq             268174               0      1499003216 ddbjcon15.seq             277309               0      1499004070 ddbjcon16.seq             321938               0      1499003361 ddbjcon17.seq             276867               0      1499003574 ddbjcon18.seq             278315               0      1499000884 ddbjcon19.seq             288888               0      1499001529 ddbjcon20.seq             269403               0      1499002720 ddbjcon21.seq             250115               0      1499000623 ddbjcon22.seq              43838               0       231066948

生物情報統計作成
生物情報統計作成として生物名別のエントリ内の出現回数をカウントし、統計情報としている. 現状の実装では以下のようにして作成している. 各エントリのORGANISM行に記述されている生物名を抽出しリストを作成. リストからは重複を除去. 抽出した生物名の出現回数(エントリ単位)をカウントして集計する. ただし、過去ORGANISM行に記述されている生物種名が2行にわたる場合があり、この点については生物名が2行までにわたることを想定した実装を作成して生物名を抽出している. 生物名、塩基数（合計）、エントリ数（合計）を一行として、出現回数で比較して上位1000位までをリストに出力する. この統計にはCONとTPAは含まれていない.

生物情報統計の出力例 No.  Organisms    Nucleotides     Entries 001	Homo sapiens	14813854723 bp	15655926 entry 002	Mus musculus	8859499642 bp	7875214 entry 003	Rattus norvegicus	6444234541 bp	2184105 entry 004	Bos taurus	5361703017 bp	2190542 entry 005	Zea mays	5037654694 bp	3892585 entry 006	Sus scrofa	4784533986 bp	3218932 entry 007	Danio rerio	3136145051 bp	1697980 entry 008	Unknown. 2646099850 bp	5051961 entry 009	marine metagenome	2149495444 bp	2643001 entry 010	Strongylocentrotus purpuratus	1352920226 bp	228238 entry 011	Nicotiana tabacum	1187391303 bp	1756449 entry 012	Xenopus (Silurana) tropicalis	1147134489 bp	1424177 entry 013	Oryza sativa Japonica Group	1146654357 bp	1229125 entry 014	uncultured bacterium	1123278186 bp	1517671 entry 015	Drosophila melanogaster	1047818168 bp	1208370 entry 016	Arabidopsis thaliana	1002049497 bp	2294235 entry 017	Pan troglodytes	1001926394 bp	213930 entry 018	Canis lupus familiaris	943080673 bp	1452566 entry 019	Vitis vinifera	913911649 bp	660561 entry 020	Gallus gallus	891481094 bp	810256 entry (以下省略)

JOURNAL統計情報作成
リリースデータのJOURNAL部分の統計情報を作成する. 作成しているのはentry.listと、ronbun.listの2ファイル. フォーマットとしては以下の様.

entry.list1

9923594 GENOME RES     601     GENOME RES.(15), 292-301(2005). 6595434 SCIENCE 1753   SCIENCE 330, 796-799 (2010) 4129525 PROC NATL ACAD SCI U S A       9573    PROC. NATL. ACAD. SCI. U.S.A. 99, 996-1001 (2002) 4014664 BMC GENOMICS   588     BMC GENOMICS 9, 97 (2008) 3376944 PLOS BIOL      136     PLOS BIOL. 8(7), E1000436-E1000436(2010). 2439069 NATURE 2709    NATURE 468 (7320), 67-71 (2010) 2095935 GENOME BIOL    115     GENOME BIOL. 9, R77-R77(2008). 1291777 GENOMICS       3353    GENOMICS 96, 102-111 (2010) 1258929 PLANT MOL BIOL 2942    PLANT MOL. BIOL. 9, 635-645 (1987) 1083418 MAMM GENOME    840     MAMM. GENOME 933, 412-413(1998). 971178 METH ENZYMOL    51      METH. ENZYMOL. 9, 92-98 (1966) 831473 NAT GENET       773     NAT. GENET. 9 (4), 407-413 (1995) 645782 NUCLEIC ACIDS RES       7073    NUCLEIC ACIDS RES. 9, 4163-4172 (1981) 551095 PLANT J 1204    PLANT J. 9, 1251-1264(1997). 547164 J INSECT SCI    36      J. INSECT SCI. 9, 25 (2009) 529673 PLANT PHYSIOL   2516    PLANT PHYSIOL. 99, 1265-1266 (1992) （以下省略）

雑誌名がキーになっており、一列目は、その雑誌を参照しているエントリの合計数、２列目は雑誌名、3列目は、その雑誌に掲載された論文が、今回のリリースでいくつのエントリから参照されているかを示す. 行順序は、その雑誌を参照しているエントリの合計数の降順でソートする.

ronbun.list１

13248  J BIOL CHEM     83773   J. BIOL. CHEM. 90, 5833-5837 (1993) 9573   PROC NATL ACAD SCI U S A        4129525 PROC. NATL. ACAD. SCI. U.S.A. 99, 996-1001 (2002) 7970   GENE    398231  GENE2 273 (1), 131-139 (2001) 7210   J BACTERIOL     92444   J. BACTERIOL.179 (17), 5585-5588 (1997) 7073   NUCLEIC ACIDS RES       645782  NUCLEIC ACIDS RES. 9, 4163-4172 (1981) 4788   APPL ENVIRON MICROBIOL  277930  APPL. ENVIRON. MICROBIOL. 85, 1211-1217 (2010) 4347   BIOCHEM BIOPHYS RES COMMUN      99938   BIOCHEM. BIOPHYS. RES. COMMUN. 99 (4), 147 7-1485 (1981) 4041   INT J SYST EVOL MICROBIOL       27309   INT. J. SYST. EVOL. MICROBIOL. 60, 990-995 (2010) 3374   J VIROL 148486  J. VIROL. 84, 7278-7287 (2010) 3353   GENOMICS        1291777 GENOMICS 96, 102-111 (2010) (以下省略)

雑誌名がキーになっており、一列目は、その雑誌に掲載された論文が、今回のリリースでいくつのエントリから参照されているかの合計数、２列目は雑誌名、3列目は、その雑誌を参照しているエントリの合計数を示す. 行順序は、その雑誌に掲載された論文が、今回のリリースで何個参照されているかの合計数の降順でソートする.

FASTAファイル作成
DDBJでは、NCBI BLAST利用の為に、FASTAフォーマットデータを、作成した定期リリースファイルから生成している. ただし、定期リリースから作成するFASTAファイルは、サービスとして提供している相同性検索サービス用のデータとしては作成しておらず、解析サーバ上でのユーザ利用の為にこれを作成している.

対象としては作成したDDBJリリースフラットファイル全体に対して、エントリ中のACCESSION行からアクセッション番号、VERSION行からバージョン(アクセッション.バージョン番号)、DEFINITION行から定義、配列部から配列文字列データを切り出し、FASTAフォーマットに変換、出力している. 配列部は60桁で改行する.

>AV865780|AV865780.1 Ciona intestinalis cDNA, clone:rcieg43j13, 3' end, single read. acaaaccgntactncagtcataaaaagaactgtatttgcttcagnaaagctaaggnaact atattacttaacaacgtgtaatatcataaatcaaaatcctaataattcagtttcaatttt ccgtcttcgttcatgctcaagtttccttttctttgtttgtttatcatatttctgcgactc aatttcttgttgtaagcaagagtactcgtaactagtcgggtctttttccttgttgtaaca atgactcagcttttgctccaacatttcaatttggtcgctaggcaacggcgccgacacagc attttttacgatggttcgaatctttttaattcgctgaattgtctgttcaagtactgtctg tggctggccaaccaacaaaactgatgtgacgtaacggtcaatgtttaaattcctcatgga ggcagcagagagcagagcagccagtgctagttgtgagggtgcgtataaaagtccaacgtc agtgtttaacgaacgaactaaaaaatcctttgccggctttctcagntgntcancgntntc taaatttcnatacccgntttttaa

CDSDBファイル作成
作成したDDBJリリースデータフラットファイルから、各エントリのFEATURE行内のCDS Featureに対して記載された配列データをFASTAフォーマット形式で取りだしてファイルにする.

>FJ347218-1|ACP19944.1|540|<1..>540|Bradyrhizobium sp. ORS327|AtpD acgctcggccgcatcatcaacgtcatcggcgagccgatcgacgaagccggcccggtcaag gccgataacgtccgcgccatccatcaggaagcgccgacctacaccgaccagtcgaccgag gccgagatcctcgtcaccggcatcaaggtcgtcgacctcctcgccccctacgccaagggc ggcaagatcggcctgttcggcggcgccggcgtcggcaagaccgtgctgattcaggagctg atcaacaacgtcgccaaggcgcacggcggctactcggtgttcgccggcgtcggcgagcgt acccgcgagggcaacgacctctatcacgagttcatcgagtccaaggtcaacgccgatccg cacaacccggatccgagcgtgaagtcgaagtgcgcgctggtgttcggccagatgaacgag ccgccgggcgcccgcgcccgcgtcgcgctcaccggtctgaccatcgcggaagacttccgc gacaagggccaggacgtgctgttcttcgtcgacaacatcttccgcttcacccaggccggc

FASTAフォーマットファイルのコメント行には以下の順に情報を出力する. （区切り文字は”|”）

アクセッション番号|protein-id|ロケーション|生物名|product名|配列

それぞれの情報は以下のように切り出す.

この時CDSフィーチャーのlocation表記が、以下のそれぞれの場合で、以下のように配列文字列を切り出す

この時、startXとendXは、以下のフォーマットとなることが有り得る.

但し、startの前に”アクセッション番号:”の修飾子がついていた場合は、当該エントリの配列ではなく、他のエントリの配列から、上記の場合分けにしたがった形で配列を抽出しなければならない. 他のエントリの配列文字列の抽出方法は実装に依存する.

但し、location表記規則では許容される以下の記述は、CDSのlocationとしては無いはずなので、 対応せずエラーとする.

(※)相補鎖の配列 以下の対応で、相補鎖配列を作る

getentryへの定期リリースデータ反映処理
DDBJでは、作成した定期リリースデータを、DDBJが提供するgetEntryサービスに定期リリース作業の度にデータ投入を実施している. しかし、getEntryではエントリのテキストのMD値を計算、保存しており、このMD値を、前回分と今回分で比較し、差異が確認されるエントリのみ書き換えを行っている. すべてを書き換えているわけではない.

（新getentryの場合、どうなるのか. ）

anonymous ftpへの公開処理
DDBJでは、リリースデータ公開の為のanonymous-ftpサイトを運営しており、作成した定期リリースデータをanonymous-ftpサイトに配置している. 配置しているディレクトリ構成は、外部に見える形では、

ftp://ftp.ddbj.nig.ac.jp/ddbj_database/ddbj（通常リリースファイル配置ディレクトリ /cdsdb (CDSDBファイル格納ディレクトリ) /fasta(FASTAファイル配置ディレクトリ) /xml(INSD-XMLファイル配置ディレクトリ) /ddbjrel.txt

となっている.