RAW DATA archiving/sharing at DDBJ

How to make releases | DDBJの登録以外のサービス 　| DDBJの新型配列事業

=DDBJの生シーケンスデータアーカイブ事業 = by K.Okubo for the announcement "DDBJ continues Archiving"　　2011 Feb


 * pages in English:DDBJ Raw sequence data Archive
 * DDBJの生データアーカイブは　自動シーケンサーが作る生データの保存と共有の為のアーカイブです.
 * International Sequence Database Collaboration (INSDC) の事業の一部です.
 * 自動シーケンサーのタイプによって　トレースアーカイブとリードアーカイブにわかれています.

DDBJリードアーカイブ(DRA)

 * サンガー法や電気泳動を用いないシーケンサー（次世代）のリードファイルを対象にしたシーケンスセンター向けアーカイブ事業です.
 * リードファイルとはこの例ように独立反応単位に相当するビーズやウエル(スポット）の継時的な色変化データです.
 * 自動シーケンサーは一度の運転で数百万から数千万スポットの色変化データ(リードファイル）を生成します.
 * 単一スポット由来の色変化を分析して作られるデータは塩基長で数十から数百塩基　ファイルサイズはランあたり　100MBから20-30GB　です(風間）

DDBJに登録いただくと

 * 目録情報とデータはDDBJに保管されNCBI,EBI,DDBJどこでも検索提供可能になります.
 * DDBJは３局で割り当てのあるＩＤ領域から固有のIDを発行します.
 * 次にDDBJは受け付けた目録とリードファイル(ベンダーごとにことなるNative File) からNCBI tool kit でSRA-fullを作成しNCBIに送付します.
 * NCBIのアスペラサーバにpushしています.
 * 公開するのはたいてい一回に10run程度なので数秒から数時間(300G)で済みます.
 * NCBI EBI DDBJ は相互にデータ交換して同一の公開目録(メタデータ）を持っています.
 * NCBIは世界中の目録と世界中のSRA-fullを保管しています.
 * DDBJは世界中の目録と世界中のSRA-lite、DDBJで受け付けたSRA-fullを保存しています.

データファイル（SRAフォーマット）

 * 保存されているDRAデータには目録(メタデータ）以外に情報量レベル(種類）のデータがあります
 * SRA-full:　もっともリッチ. 　１ランで生まれるベンダー固有のNative FileからNCBI-Tool kit によって作られる画像以外のすべてを保持した共通形式のバイナリーファイル. 実験者が単一の実ランを架空の複数ランに分割したり、複数の実ランを同一のランにまとめることも可能です. 　　Base, Quality, Intensity, Index(座標）、アダプタの長さやペアードエンド情報などの補遺情報が書かれたています.


 * NCBIには世界中のSRA-fullデータがあります. 　DDBJにはDDBJでうけつけたデータについてはあります.
 * DDBJからはSRA-fullのＤＬはサービスしていません.


 * SRA-lite:NCBIがバーチャルに見せているfullからIntensityを除いた軽量化ファイルです.
 * SRA-full/SRA-lite　のサイズ比は2/1程度です.
 * DDBJはこのレベルを保存提供用に用いていますので世界中のSRA-lite データが保存されています.
 * DDBJは国産データもＮＣＢＩにfullを送り、彼らのサイトで作られるSRA-liteバーチャルファイルを国産他国産区別なくコピー固定して保存しています.
 * DDBJで行うSRA-liteのコピーは現状では週１回です.


 * FastQ: SRA-fullのうちBAse と　Quality だけのテキストファイルです.
 * SRA-lite/FastQ　のサイズ比　は1.5/1 くらいです.
 * DDBJでは登録を受け付けるとSRA-fullからFastQを作成します.
 * DDBJでは他国分はSRA-liteからFastQを作ります.


 * 世界中のSRA-lite, FastQ の検索DDBJでもNCBIでもEBIでも可能です.

目録(メタデータ）ファイル

 * メタデータの種類にはサブミッション、スタディー、実験、サンプル、ラン、アナリシスの６種類あります.
 * 階層的なスタディーにぶら下がる階層関係が多くですがとサブミッションとスタディーは多対多の関係にあります.
 * 異なる研究プロジェクト（スタディー）由来データを一度に登録(サブミッション)することができます.
 * 逆に1000人ゲノムは１スタディーを多くの機関で手分けし担当のサンプル群(個人）のデータを複数回(サブミッション）にわけて長期間にわたり登録しています.
 * DDBJでは登録用のメタデータファイルを簡単に作れる自作ガジェットを用意しています.

サイズの話

 * SRAは2011年1月現在DDBJがSRA-liteとして保管提供しているデータは
 * 95388ラン
 * FastQ+メタデータで 49TB
 * SRA-liteでは   71TB
 * 今SRAにアロケートされているディスクは 173TB です.
 * この前 100TB 増強したので　すぐに273TB になります.


 * DDBJ経由で登録したデータは
 * 131ラン
 * DDBJに登録されたが未公開のファイルはSAR-fullのまま保管しています.
 * 公開時にNCBIに送りSRA-liteを発生させます.
 * DDBJで受付済みの未公開のランは　721ランです.
 * そのデータ量は　数テラバイトです.

検索提供系

 * DDBJで稼働中の検索はメタデータに対する検索です.
 * NCBIが公開しているリスト(Acc一覧,　Status,MD5など）、SRA-liteから抽出したベースカウントやスポット数もDDBJで作るかコピーしてPortgresに加えてＤＢ化しています.
 * ここがDDBJでは一番大変なステップです.
 * Tool kit は新しいシーケンサーが登場しnative fileの種類が増えるたびに対応しているので　Tool　kitを作るところが技術的には一番大変なところだと思われます.


 * このステップは現在DDBJで世界中のオープンアクセスデータについては実施しています.
 * メタデータの種類にはサブミッション、スタディー、実験、サンプル、ラン、アナリシスの６種類あります.
 * それぞれ32,545; 4,983; 38,407; 164,867; 95,388; 不明　あります.
 * Postgres　ＤＢＭＳ　とsolr 全文検索エンジン　を使ています.
 * SRA-liteデータもFastQデータも１ランに1-3あります.
 * SRA-liteとFastQのラン単位でのデータブラウザはあります.
 * それはNCBI tool kit　と自作のデータ表示モジュールでできています.
 * 検索ではメタデータを検索し、メタデータ単位でブラウザで確認し　ラン単位でＤＬをさせています.


 * このＤＢのサイズはしょぼしょぼです.
 * 結局　Tool kitとNCBI製のリストがあれば　世界中のデータを引き受けて検索提供することはディスクがあれば現在でもやてることそんなに変わりません.

登録の手続き

 * DDBJにアカウント申請をいただいて登録シーケンスセンタ固有のアカウントをつくります.
 * ウエブ上でメタデータをつくってもらいます.
 * 形は機械的チェックで不備はメイルで伝えます.
 * 猿橋君は登録の支援とフィールドと値の整合性のチェック等をしています.


 * ACC 番号を発行します.
 * ランデータは作成したアカウントからDDBJサーバにscpしてもらいます.
 * DDBJ でSRA-full に変換します. 　エラーが起これば連絡します.
 * 公開日がくればDDBJから公開し、NCBIにSRA-fullとメタデータを送付します.

Trace Archive at DDBJ (DTA)

 * サンガー法を用いた反応物を電気泳動で分離するシーケンサー（次世代以前）のリードファイルを対象にしたアーカイブ事業です.
 * リードファイルとはこのような単一反応を解析するとひとつ生成される解析結果ファイルです. 自動シーケンサーは一度の運転で数十から数百のリードファイルを生成します.
 * リードファイルのデータサイズは塩基長で数十から数百塩基　ファイルサイズは200KB程度です.

DDBJに登録いただくと

 * 目録情報とデータはDDBJに保管されNCBI,EBI,DDBJどこでも検索提供可能になります.
 * DDBJはまず受け付けた目録とリードファイルをNCBIに送付します.
 * お返しにID発行をしているNCBIにおいて各リードファイルにIDが発行されDDBJにも返送されます.
 * DDBJはこのIDを使ってローカルでもデータを管理しています.
 * EBIもDDBJと同様にトレースの登録を受け付けNCBIに送付しています.
 * EBIは同時にNCBIに登録されたデータのミラーリングを行っていますがDDBJでは行っていません.
 * 世界中のトレースを検索したい場合はNCBIかEBIで検索してください.
 * DDBJに登録されたトレースを見たい場合や取得したい場合は3者のどこからでも同様に検索ＤＬ可能です.

DTAのサイズ

 * トレースファイルは2011年1月現在NCBIには21億リードファイルあります.
 * そのデータサイズは圧縮されたftpサイトでは２００テラバイトです.
 * DDBJ経由で登録されたトレース数は約500万リードファイルです
 * 圧縮形式のfasta metadata scf quality data の４種類で合計 500Gigaバイト でNCBIの1/400です.
 * DDBJで稼働中の検索、多数ファイルの圧縮取得系は自作です. MySQLで（福田君小立君が）つくりました. 　企業はMySQLをフリーーでは使えないのでHiRDBで稼働させています（開発時の仕様書は事務にあり）
 * 何もしなくても受付が手間なしとしたら　１億件までは普通に使えます. (福田）
 * 何もいじらずに高いスペックのマシンに移動できます. 　ただしその時には比例的に遅くなります.
 * この傾きを小さくするためには並列化したりインデックスデータをメモリにおくなどやりようはあります. 　新規の仕事発生します. ５－６人月だと思われます. （福田　小笠原　）
 * 登録受付時は国内のぱらぱらへの対応は児玉君が一人対応なのでその尼増えると大変だけど大口の機関からの受付なら登録者ガワで作成できるはず.
 * アパッチソーラ(ARSA代替）を使えば20億件でもできるはず(小笠原）

DTA登録の手続き

 * メタデータは研究のタイプ分けや生物種等89項目ありますが必ず記載しなければならない項目は10項目程度です. 特徴は登録者やコンタクトの記載は不要で、シーケンスセンターの名前がそれに代わります自由形式に書くフィールドはだいたいブランクです.
 * テンプレートをもとに登録者にメタデータを作成していただきます.
 * DDBJにアカウント申請をいただいて登録シーケンスセンタ固有のアカウントをつくります.
 * アカウントにリードファイルとメタデータを置いてもらいDDBJ側で回収しチェックします.