Research Commons

目的
リサーチコモンズはオープンアクセス可能なデータアーカイブであり、データ駆動型研究や分野横断型の研究等を促進するものと期待される. 一方日本は世界に比しデータ共有の制度化に消極的であり、強制的にデータのアーカイブへの登録等を行わせることについて「科学者の自発性で十分である」「制度はモチベーションを下げる」「他国を利する」「順守させる運用コストがない」等の慎重論が存在している. データ駆動型の性質を強める欧米型研究を無制度で進めることで科学やその社会との距離に与える影響が懸念される. かみ合わない科学制度議論を建設的なものにするために、統治を受ける科学社会の側からも科学者の自発的な特性、論文による強制の効果、政府やファンディング機関による強制の効果等を定量的に測ることが大きな助けになると考える.

この目的のために、
 * (i)国際DNA配列データバンクおよびマイクロアレイデータベースGEOのデータを使い、各国の公共バンクを通じたデータ共有の量の推移を測定する.
 * (ii)各種のデータ共有強制規則について調査し各国の研究者に課せられる強制を階級化します.
 * (iii)登録強制の種別やその程度とデータ共有量の関係を分析し、他の指標とともにわかりやすく提示する.

これらの調査・作業は国立遺伝学研究所　遺伝子発現解析研究室および共同研究者を中心に行うが、本発注ではこれらの調査・作業の補助として、

また国際DNA配列データバンクおよびマイクロアレイデータベースGEOのデータはデータ量が数億件単位となるため単純なDBMSでは処理が遅いなどの技術的な問題が発生する可能性がある. 必要に応じてNoSQL系で処理を行うなどの若干の拡張的な開発を行う.
 * (1)データのダウンロード・パースを行いデータベースに登録する作業
 * (2)分析結果のグラフ化およびグラフのWeb画面上からの表示系の作成 を行う.

作業内容

 * 1) まず必要な全データを一ヶ所に集めること. =>遺伝研スパコン（一般研究用アカウント）の/home/oogasawa/dataの下
 * 2) * 塩基配列データ
 * 3) ** DDBJ release
 * 4) * 遺伝子発現データ
 * 5) * GEO
 * 6) * その他: SRA/DRA/ERA のメタデータ, ArrayExpress等 : ダウンロードにだいぶ時間がかかる.
 * 7) * 経済指標等
 * 8) * CIA factsbook, ...その他
 * 9) まず全プログラムを一ヶ所に集めること.
 * 10) まず全関連文書を一か所に集めること. ( http://rgm3.lab.nig.ac.jp/Repository2/other/20121217_okubo )
 * 11) まずその他の情報源を一ヶ所に集めること.
 * 12) * 大久保研Redmine http://okubolab.genes.nig.ac.jp/redmine/

SRA/DRA/ERAのメタデータの場所
お世話になっております. 運用チーム 藤本です.

DDBJのftpサイトのSRA関連のファイルは http://www.ddbj.nig.ac.jp/ftp_soap-j.html のリンク先 "DDBJ Sequence Read Archive データ" がルートディレクトリとなっております.

ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/ + fastq # ３局の公開 metadata および fastq ファイル配置 + sra # dra公開分 の sra配置 + sralite # ３局の公開 sralite 配置

metadataは以下のような形で配置してあります.

例１）DRA000001 の submission.xml ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/DRA000/DRA000001/DRA000001.submission.xml 例２) SRA001002 の study.xml ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA001/SRA001002/SRA001002.study.xml 例３) ERA010003 の sample.xml ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/ERA010/ERA010003/ERA010003.sample.xml

以上、よろしくお願いいたします.

藤本