DDBJ report 2010

=Construction of INSD and release of DDBJrelease file=


 * DDBJ, GenBank, EBI collaboratively construct and maintain International sequence database (INSD)
 * This collaboration is named International sequence database collaboration.
 * Researchers publish DNA sequence data upon Scientific publications and patent application.
 * Gathering DNA sequences in one place, regardless of the journals and patent offices, is very wise idea in many reasons.
 * INSDC is an activity made for this purpose.
 * INSDC works to make and maintain such archival data for the sake of the world.
 * 世界中の大学や企業の研究者は論文投稿や特許出願等に伴って「DNA配列情報」を公表します.
 * 多くの雑誌社や多くの国の特許庁でバラバラに記録しては探し物が困難です.
 * INSDCは社会全体が協力してDNA配列とその説明を同じ形で一か所にあつめ誰でも使える共有財を作成するお手伝いをしています.
 * 多くの雑誌編集者の協力でINSDCへの登録が義務付けられたこと、特許庁連携がINSDCを利用することに決めたことなどによって25年間で他に例のない世界協力事業に育ちました.
 * INSDCは３つのエリアの３つの機関をそれぞれ同等の入り口として相互交換して僅かにリンク情報など後付情報の違う３コピーの登録票アーカイブを作っています.
 * この3つのコピーデータもDDBJ,GenBank,EMBL　とよばれています.
 * これまで２５年間この作業を繰り返し１億枚以上の配列登録票ができています.
 * まとめられた配列登録票は公開期日の後１日以内に世界中から検索閲覧取り込み可能になります.


 * また３機関は毎年４から１２回すべての配列登録票を書き下し巨大なテキストファイル　「リリースファイル」を作ります.
 * この際各機関で自由に情報付加が行われ　EMBL,GenBank,DDBJリリース　ができます.
 * 本報告に限り内部ジャーゴンとして全INSDCデータのDDBJ様式のコピーをW-DDBJ,DDBJで受け付けた登録分をJ-DDBJと呼ばせていただきます.
 * リリースは他機関や企業の２次DBに取り込まれデータ更新に使われます.
 * またリリースは進化学、遺伝学、医学、バイオインフォマティックの研究材料に使われます.

全INSDCに対する登録行為 Submission level breakdown of W-DDBJ release(未公開登録は含まず）
リリースに含まれる配列登録票のクラスタ化は2007以降統合データベース事業から受託し開発したバンク目次データを使っています. 目次　統合データベースセンター　再分析　渡邊康司(高木タスクフォースTTF)大久保
 * 科学の変遷をうけて配列登録票も「知っていることを書いてその配列を加える」態度から「不明の対象の配列特徴はこれです」の態度に変わりました.
 * 上記のような変遷をうけて配列票の登録の最適な形も多様化しEST,WGS,GSS等のディビジョンが生まれています. 　また配列票にまとめる以前の生データの登録もうまれています.
 * 塩基数や配列登録票の数ではなく　登録行為の頻度を表現するために登録票の文献や著者情報等でクラスタ化した値です.
 * DDBJリリース（１次）データを統合データベースセンターでINSDC目次（２次）にしたデータを再度分析しました
 * それぞれのカラムは相互に補完的(mutually exclusive)な分類です
 * 統計の都合上　各年度１月１日から12月31日までの公開分について集計しています. 受付されたが公開されていない登録は含まれません.