Talk:RAW DATA archiving/sharing at DDBJ

ということだと理解しました. 06:09, 17 February 2011 (UTC)
 * NCBIがすぐにある種のデータの受付をやめはじめ１２か月後にすべての受付を止める.
 * BOLもトレースアーカイブ置き場としてDDBJに期待している

NCBI/GenBankの穴をどうして埋めるのかについてDDBJができることを急ぎまとめるようにしたいと思います. EMBL/EBI/ELIXIRに言及するようにDDBJ/DBCLS/NBDCが協力してあるいは分担して応えてゆければと思います.

「複数個所においていたコピーを世界で分担して重複なきように保存する」ことで保存力は数倍になるはずです.

=１．SRAへの対応=

支援班ゲノムへの対応
 * 海外からSRAデータを受け付けることは現在技術的に可能か？　何か足らないか？
 * タイ、中国、韓国、オーストラリアからの登録実績あり. FTP だと距離に応じて速度が低下するので Aspera 導入が望ましい Ykodama 08:53, 17 February 2011 (UTC)
 * Asperaは回線が切れるという苦情を聞きますがいかがでしょう？grid FTPとかだったらどうでしょう？ oogasawa
 * version があがるにつれて切れることはなくなってきました. ミラーリングでもたまに切れるくらいなので、ファイル数の少ない登録で切れることは少なそうです. もちろんフリーでいいのがあればそれに越したことはありません. フリーでいいのがあれば教えてください. テストしてみます. Ykodama 01:42, 18 February 2011 (UTC)
 * １２か月たてばちょうどスパコン更新済みですが　その時にどのくらいのディスクが使えるか？
 * 2012.3 4PB, 2013.3 計10PB, 2014.3 計20PB の予定 (ただし高速ディスク:省電力ディスクの容量比率は1:1の予定. したがって アーカイブ用は左記の半分の容量)　テープ装置も別に買う予定. 　oogasawa
 * もしも十分量のディスクが見込め、データ転送が可能なら「オープンアクセス部分の引き受け」に手をあげられるはずです.
 * そのために必要な技術的課題をつぶす検討をしたいと思います.
 * 日本の閉鎖集団用ヒトデータのバックアップも同様に検討を続ける必要あります.

=2. BOLへの対応 = Barcodeデータの規模　　(菅原先生より）
 * これはGBIFとは無関係のカナダ中心のバーコーディングの話だと理解しています.
 * 現在日本はBOLにデータ拠出をしていないのでの利用者はBOLの一部のデータにしかアクセスきない状況にあると理解してます.

iBoL（International Barcode of Life）は5０万種500標本のbarcodingを ５年間の目標としています. http://ibol.org/about-us/how-ibol-works/ iBoLの参加国はこちら http://ibol.org/about-us/partner-nations/

iBoL参加国以外（例　日本）もbarcodeデータを出していますが、 BOLD system（http://www.boldsystems.org） で見える件数は 以下のとおりです（2011/02/17時点） Formally Described Species With Barcodes   95,064 Total Barcode Records   1,110,739 SourceBreakdown GenBank   108,943 Canadian Centre   924,937 Others   76,859 比較的短い配列による同定における１塩基の重みから、trace（信頼度）を 添えて正式のBarcodeデータになるというルールですが、 上記の全件にtraceが備わっているわけでもないようです（推定）.
 * ここで言及されているBOLトレースが一体何を指すのかが判りません. 　ご存知でしたら教えてください.
 * Barcode 配列決定のもととなる trace で NCBI Trace Archive に多数登録されています.
 * http://www.ncbi.nlm.nih.gov/Traces/trace.cgi?&cmd=retrieve&val=PROJECT_NAME%20%3D%20%22BARCODE%22&dopt=info&size=613154&dispmax=5&page=1&seeas=Show Ykodama 08:55, 17 February 2011 (UTC)
 * かれらがオープンにしGenBankトレースアーカイブに登録している業務を代行してくれということか(1ryサイト）？
 * 今まで Barcode の trace データを NCBI Trace Archive に登録してきたが DDBJ Trace Archive で受け入れてほしいということかと. Ykodama 08:53, 17 February 2011 (UTC)
 * NCBI Barcode Submission Tool: http://www.ncbi.nlm.nih.gov/WebSub/?tool=barcode Ykodama 01:22, 18 February 2011 (UTC)
 * 旧型シーケンサーのトレースが大量にあるとイメージすればいいのか？
 * Barcode 決定では数回しか読まないので trace の数は少ないです. NCBI Trace Archive でも BARCODE 由来 trace は61万件程度です. Ykodama 08:53, 17 February 2011 (UTC)
 * どのくらいの件数サイズのことをイメージしているのか？
 * 今後どのくらいでてくるか分かりませんが、上記のような規模感かと. トータルでもサイズはたいしたことないと推測します. Ykodama 08:53, 17 February 2011 (UTC)
 * 現状のDDBJのトレース受付フローとそのアウトプットは？
 * D-wayアカウントシステムでtraceとメタデータ受付 -> チェック -> ファイル作成 -> NCBI Trace Archiveにアップロード -> アクセッション番号取得 -> NCBI Trace Archive から公開 -> NCBI FTP サイトから登録したデータを取得 -> DDBJ Trace Archiveからも公開 http://trace.ddbj.nig.ac.jp/dta/search.shtml
 * アクセッション番号 (prefixなしの整数) は NCBI で一元管理されていて DDBJ では発行していない. ミラーリングしておらず DTA では DTA 受け付け分しか公開していない. 登録数も少ない(今まで公開済み3件、7,891,318 traces、未公開2件) ので基本的にマニュアル対応. Ykodama 08:53, 17 February 2011 (UTC)

=３．データ圧縮保存の方法は= SRAに準拠と昨日ゲノム支援に箴言しましたが　早期の運用は無理にしても圧縮利用の技術開発は我が邦からは望みなしにならぬように情報技術分野へ課題や例題の提示ができるといいと思います. =ディスクと石とメモリーと= ＤＮＡデータ利用委員会　スパコン仕様策定委員会　各位

いつもお世話になっております. ＮＣＢＩ次世代生データアーカイブ中止　に関するご相談です. 時代（ＮＣＢＩ）においつくことをまず第一義に統合ＤＢ事業で「走り始めた」　http://bit.ly/hgIqjp DDBJにとっては　分野の要求をきちんとうけて　最初から走りなおす　いい機会だと　ＤＤＢＪスタッフは考えています.

とりあえずのアナウンスにも書きましたが DDBJ does not plan to discontinue either of the service TO MEET THE DEMAND of the domestic community " as well as of the global one.  です. http://www.ddbj.nig.ac.jp/whatsnew/2011/DRA20110222.html

他極との議論　スパコン仕様確定　まで間がありませんのでまずは事実と要求を集めみなさんと共有し 分野の合意を個人の考えに優先させ　他極と議論したいと思います. 無理かもしれませんが　以下について努力だけでも. 1. どのレベルのデータが　望ましいか　(レベル別に現在可能な再利用法、将来の見込み） 2. 保存期間　　（シーケンサの技術進歩で　無意味になる時期は？　取り捨てデータ化の見込み） ３．３極やシーケンスセンタ　スパコンセンタ　も含めた分担は不可能か　(F/Wバイパスネットの可能性） ４．情報圧縮の可能性　（リシーケンスを完全にユニーク部だけにできるのはいつか）

たとえば中村さんは　まず　「FastQ　だけで構わない」　という考えをくれました. データサイズがSRA-liteの　1/6　になる提案です. 「FastQ　ではできないこと」　が重要でない　と断言できるならば　堅持できる案だと思います.

このような理由のある考えを １．データ利用委員会および　仕様策定委員会で議論　情報共有し、 ２．報告書を諮問委員　ＮＢＤＣにあげ　社会レベル観点からＤＤＢＪの役目を決めてもらう ３．ＮＢＤＣに社会への展開のハブになってもらう ４．３極との議論をする　２に戻る で臨むのが筋ではないかと考えています.

ＤＤＢＪとしてはこれを受けて合理的なディスクとパイプラインのバランス　 ゲノムと非ゲノムのバランス　を実現したいと思います.

独立性や自由さを旨とする身ですが　アーカイブや共同利用機関スパコンは別だと思いますので　社会主義的に. よろしくご協力お願いいたします.

追加ですが現在は アーカイブ　公的機関専任 パイプ　　　公的と企業 クラスタクラウド　公的と企業 です. 対応この状況下で共同利用機関のスパコンセンタは誰の(企業も含め）どんな利用にこたえるべく何を担うべきなのかについても合わせてお考えを共有させていただきたいと思います.

DDBJ 　スタッフ一同

=アーカイブ事業の進め方 事実とご意見=
 * 1) どのレベルのデータが　望ましいか　(レベル別に現在可能な再利用法、将来の見込み）
 * 2) 保存期間　　（シーケンサの技術進歩で　無意味になる時期は？　取り捨てデータ化の見込み）
 * 3) ３極やシーケンスセンタ　スパコンセンタ　も含めた分担は不可能か　(F/Wバイパスネットの可能性）
 * 4) 情報圧縮の可能性　（リシーケンスを完全にユニーク部だけにできるのはいつか）
 * 5) シーケンサー出力の伸びの予測
 * 6) 単価あたりのディスクスペースの伸び率

質問と回答のページを統合センターのキノコＱＡシステムに移しました　 回答はそちらで記入閲覧できます.

Comment1: 現在、DRAでデータはどのように扱われているのですか？ SRA？ SRA, SFF, SRF, Native vender, fastq等あるようですが. 菅野純夫 10:57, 25 February 2011 (JST)

to comment1: 数種のNative venderを統一形式SRAになおしアーカイブするのがNCBI開発現行法ですがサイズがでかいので　Intensity file のみを抜いたのがSRA-lite ＤＤＢＪはこれを世界中の分をミラーしてますDLにはSRA-liteとFastQを用意してます. SRF SFF は僕は知りません　Okubo 11:43, 25 February 2011 (JST) - Comment2: 今回お送りいただいた４項目について、ＤＲＡ開発提供の過程で 児玉さんたちが会話してきた研究グループ、シーケンサ販売会社 （遺伝研出身の担当者もいます）、シーケンシング請負業者からも 聞き取り調査するというのは、いかがでしょうか. 菅原 10:57, 25 February 2011 (JST) - to comment2: ドラゴンの北川さん　と　ビッツの新井さん　　製作所　北海道 SK ご存知の方は　お教えください. Okubo 11:02, 25 February 2011 (JST) - to comment2:　シークエンスのベンダーは、イルミナ株式会社鈴木さん、ロシュ社の田中さん、ABI　の戸崎さんが、 北海道システムサイエンスの杉村さんでどうでしょうか--Ssaruhas 14:00, 25 February 2011 (JST)

>1. どのレベルのデータが　望ましいか　(レベル別に現在可能な再利用法、将来の見込み） 私は、Genbank/Embl/DDBJの、第一義的な役割は「倉庫」にあると考えています. ですので、Nativeを保存することが望ましい. イメージファイルがない時点で、pureなNativeとは言えないのですが、可能な限りNativeに近いデータを保存するのが望ましい. SRAはNativeを管理しやすいように、ラップし、付加情報を追加したものなので、当面は、SRAで保存するのが、良いように思います. より良いラップ形式が出てくれば、それに変えてよいでしょう.  菅野　Okubo 15:27, 25 February 2011 (JST) >> コスト度外視でしょうか　今は一人のリシーケンス分でデータ量はiPad一冊分　裸のディスクは価格的にはその1/10　です. - 質問と回答のページを統合センターのキノコＱＡシステムに移しました　 回答はそちらで記入閲覧できます.