科学研究

Are scientists sharing data?

=共有科学データ量の国別推移--データ共有制度の効果判定=

=研究目的=
 * 公的科学由来のデータが将来の為に集積管理すべき公共財だとする考えには誰も異論はありません.
 * しかし公共財化を保証する為のデータ共有制度の導入やその程度については各国で足並みが揃いません.
 * 「自発的にデータ共有するか？」「制度導入の効果は？」等、想定する研究者の振る舞いに開きがあるからです.
 * 合理的な判断の為にはこのバラバラな想定を、実像へと収斂させねばなりません.
 * 各国での共有制度に大きなばらつきが存在する現状を利用して、分子データの世界共有バンクにこれまで登録されたデータの分解と各国制度調査を組み合わせ、制度や無制度下での研究者の振る舞いに説得力を持つ実像を与えます.

=背景 着想に至った経緯=
 * 地球環境や地震予測はもとよりトランスレーショナル医学や大規模ゲノム疫学等、今世紀の科学には実世界や実社会で生じる問題の解決が期待されています.
 * その牽引力となるのは世界や自然をキャプチャーするデジタルデバイスやデジタル情報を分析し配布するコンピュータとインターネット技術です.
 * キャプチャーされたデータがより多くの目的により広く長く利用されるように制度面からも変化が期待されます.
 * 地球観測や生命研究等[の分野独自のガイドラインに加え
 * 公的資金による科学一般に対してOECDが2004年に我が国も署名の元に公的科学のデータ共有に関する議長声明を採択し、引き続き2007年にはガイドラインを制定しデータの共有がイノベーションの源泉として欠かせないと力説しています.


 * これに呼応するように欧米では、既に法律やファンディング機関のガイドラインの制定によって科学データの共有を強く推進していますが
 * Research funders' open access policies
 * 我が国は世界で制度化の遅いグループに属します.
 * データ依存を強める欧米型研究を無制度で進めることが科学やその社会との距離に与える影響が懸念されます.
 * 背景には強制的にデータのアーカイブへの登録等を行うことが「科学者の自発性が十分である」「制度はモチベーションを下げる」「他国を利する」「順守させる運用コストがない」等の慎重論が存在します. [ 調査報告 ]


 * 確かにこれまでの科学の成功は様々な制度の均衡に立脚しており、尚早なデータ共有制度導入にはこの均衡を破壊する危険も含まれています.
 * 研究社会に対するイメージの違いでかみ合わない科学制度議論を建設的なものにするために、統治を受ける科学社会の側からも科学者の自発的な特性、論文による強制の効果、政府やファンディング機関による強制の効果　等を定量的に測ることが大きな助けになると思うに至りました.
 * OECD 声明: http://www.oecd.org/science/scienceandtechnologypolicy/38500813.pdf
 * 2000年ごろから始まり2006年から数年間の間盛んに議論された公的科学データの共有問題に関して各国で制度化が始まり数年経過し多くの先進国国で何等かの制度が見られます. この間事業責任者としてデータ登録の状況を眺めてきましたが我が国からの登録は直観的には欧米と比べ研究開始から登録までのラグが大きく、またマイクロアレイデータの登録等も少ないと感じていました. 　その傾向が国民性によるものなのか制度の差によるものなのかを提案手法で明らかにできると考えました.
 * http://blogimg.goo.ne.jp/user_image/21/72/a527bc854fe1fc74adceaaef54d8272b.jpg

=独創性新規性=
 * 科学のデータ共有に関する意見は科学雑誌で過去約５年間に盛んに取り上げられ、それに呼応して典型的科学者の行動学的な分析や公共データを用いた科学社会全体のデータ共有の状況などはレポートされています.
 * また共有制度に関する調査も継続的なものがいくつか見られ、政府や外郭団体による国別の動向調査や雑誌単位のデータ共有義務付けの調査と遵守程度の抜き取り調査分析もみられます.
 * 一方で世界で制度がばらついている状況を利して、共有データの分析から制度と共有行為の関係を求めようとするものはありません.
 * おそらく科学制度の調査等を分析する専門と科学データの処理分析を行う専門が別であること、科学データでは通常研究者の国籍は問題にしないのでデータと研究国を結びつける手法が容易ではない等の理由が考えられます.
 * 本提案ではデータ生産者出身でバイオデータバンクで実務にもあたっている医師としての提案者が同基礎生物学統計学の専門家と、法律知財政策の専門家の協力を得て遂行します.

=研究の意義と有用性=
 * データ共有に関する制度化を進めた国にとってはその政策の効果を実証するデータを与え、データ共有政策を進めていない国にとっては今後の導入を考慮するきっかけを与える可能性があります.
 * データ中心に科学スタイルが移行する現在、データ共有が科学の効果を大きくすることは疑いがありません. 　科学者の動機を損なわず共有を進めるにあたって「制度化は有効なのか？」の問いは社会にとって重要な質問であり、外部から手の付けにくい質問に科学の側から客観性のあるデータを示すことが望まれます.

=研究計画・方法=

研究計画・方法概要

 * データ作成１：国際DNA配列データバンクおよびマイクロアレイデータベースGEOのデータを使い、各国の公共バンクを通じたデータ共有の量の推移を測ります.
 * データ作成２：各種のデータ共有強制規則について調査し各国の研究者に課せられる強制を階級化します.
 * 分析：　登録強制の種別やその程度とデータ共有量の関係を分析し、他の指標とともにわかりやすく提示します.

研究計画【平成25年度】
 * 国際DNA配列データバンクおよびマイクロアレイデータベースGEOのデータを使い、各国の公共バンクを通じたデータ共有の量を測ります.
 * 共有データの登録者のコンタクトアドレスから登録を国別に分類します.
 * 登録を論文由来(論文による強制)と特許公報などそれ以外に由来するデータに分けます.
 * 登録をリファレンス(プロジェクト名称)を使って、研究単位にまとめます. （一億件は100万件程度にまとまります）
 * 登録国別に毎年のプロジェクト数　データ件数を得ます
 * マイクロアレイデータベースGEOについて同じ前処理を行います.
 * 新型シーケンサーデータについて同じ前処理を行います.
 * 国別分類では必ずしも国名を書くように強制がないので都市名のみの記述しかない場合に対応するために都市名称と国名の変換プログラムを作成します.


 * 各種のデータ共有強制規則について調査し各国の研究者に課せられる強制を階級化します.
 * 科学雑誌による世界共通の強制の状況をデータ種別に調べます.
 * 文献調査およびネット検索で雑誌別の最新のデータ登録義務付け状況を得ます.
 * 過去の調査を参考に生命系の雑誌のトップランクから100誌程度の調査を行い、米国国立医学図書館の分野分類を使って分野別に分類します.
 * 各国の政府およびファンディング機関のデータ共有制度について調査します.
 * 各種の政府および外郭団体の世界動向調査報告を調べます.
 * 英国のSHERPA projectによる欧米ファンディング機関の詳細な共有制度調査を利用します
 * メイル私信によって補強します.


 * 登録強制の種別やその程度とデータ共有量の関係を分析します.
 * 自発および強制による登録態度は研究者の国籍やデータの種別に関わらず一定であると仮定することで国別データ種類別の共有量が強制別の共有量と読み替えらえます.
 * 同種の環境下で国別に共有量に開きがあるばあにはその要因を探します.
 * 分析手法はデータ数が少ないことと　制度は階級的な分類にならざるを得ないので相関などの量的な表現を最小にとどめ　むしろ直観的に同意できるデータ表現を工夫します.

研究計画【平成25年度以降】
 * 論文のデータ登録強制制度の調査範囲を広げ　　可能であればデータ更新の自動化を視野に入れ、人手による分類を教師データとして、機械的な分類についても可能性を検討します.
 * データ登録量の国別分類集計のプロセスの自動化を検討し、データ更新の自動化を検討します.
 * 各国の科学制度に関するデータを継続的に人手で補強します.
 * 分子データ以外に臨床研究における

=予想される困難=
 * データの収集に際して:制度の強さやデータ共有行為等の定量化しにくい対象同士の関係を制度調査や共有データの分析等で推定する場合には様々な前提や仮定などの条件の導入が必要になります. 支持される結論を得るためには、それらの導入条件を適宜明確にし、条件の確からしさについても何らかの量的指標を与えることが望まれます.
 * 制度データ収集時：　生命系に限定しての各国のデータ共有制度のサマリーはこれまで見られません. 　OECDや欧州機関による全分野の制度調査を足掛かりに生命系に関する制度を丁寧に抽出し、各国の制度を階級化することが必要です. 　相互に異なる制度の階級化は各国の基本的な科学制度についての知識も必要になると予想されます.
 * 制度データ収集時: インパクト上位の雑誌タイトルについてデータ別の共有ポリシーの調査報告は見られますが、インパクト上位の雑誌の様子が全体を代表するかは検証されていません. 　各種データ全体への登録強制力の指標にふさわしいより説得力のある方法での調査の追加が必要です.
 * バンクデータの分解：　１億件を超えるデータバンクレコードを研究単位でまとめ登録者の居住国別に分類する必要があります. このプロセスは既に文献（１）で経験しています.
 * 相関の分析に際して: データの量や質から統計的な指標の説得力は少ないと予想されますので、データをわかりやすく提示するように心がけます.
 * 各国の生命研究のスタイル(DNAやマイクロアレイ等のデータ依存研究の割合）に大きな差があると混乱要因になりかねません. 　何かの方法でそれらに大きな差がないことを示すことも望まれます.
 * 国別の共有態度の差が制度以外の各国の指標によって決定されている可能性も否定できません. 　恣意的にならないように各国の制度以外の指標についてもある程度の整理提示をおこないます.

=準備状況=

データ共有の背景と現状調査

 * 平成17-19 振興調整費「生命科学データベース統合に関する調査研究」（本人代表）においてデータ統合を妨げるのは技術的な問題でなく制度の問題であると発見し、欧米都我が国の科学データの扱いに関する考え方や制度の差を指摘しました. 　しかしながら客観的な説得データに欠け、期待された省庁間の調整に基づくロードマップ作成には至りませんでした.
 * 報告書　http://scfdb.tokyo.jst.go.jp/pdf/20051010/2007/200510102007rr.pdf
 * 平成18年-22年　文部科学省統合データベースプロジェクトにおいてクリエイティブコモンズ・ジャパンの協力で米国からクリエンティブコモンズの創始者ローレンスレッシグをまねきシンポジウム開催し、議論する機会を得ました　　http://creativecommons.jp/weblog/2009/10/2072/
 * 2008年10月　OECDデータ共有委員会の事務局を務めたYukiko Fukasaku氏をフランスから招きOECDでの声明採択までの議論の様子と各国でのガイドライン実施状況、についてインタビューしました.
 * 2009年11月　米国ナショナルアカデミーに Paul F. Uhlir, J.D.氏（Director, Board on Research Data and Information National Academy of Sciences) を訪ね、データ共有の米国での背景と世界の状況について解説を受け我が国の状況について説明しました. 　その際共有を進めるための思想だけでなく説得力のある事実を集める活動を紹介されました.
 * 報告書　http://lifesciencedb.mext.go.jp/hyouka/index.html
 * オープン化を進める著作権や知財政策の専門家の方々と持続的に議論を積み重ねました. 　その成果は以下の発表にまとめました.
 * 日本知財学会第8回年次学術研究発表会 ライフサイエンス分科会セッション　2010　提案と参加　「オープンイノベーションに向けた知財戦略、独占と公共性とのバランス」６月19日（土）　＜パネリスト＞ 野口祐子　氏(森・濱田松本法律事務所　弁護士)、大久保公策　氏 (国立遺伝学研究所 生命情報DDBJ研究センター長)、末吉亙　氏 (潮見坂綜合法律事務所 弁護士)、石川浩　氏 (持田製薬株式会社 知的財産部長、弁理士)、隅蔵康一氏 (政策研究大学院大学　准教授)、鈴木睦昭　氏 (国立遺伝学研究所 知的財産室室長)
 * 日本知財学会第7回年次学術研究発表会 6月14日（日）2009　発表　「インターネット時代の公的科学の知財戦略」　野口祐子　氏 (森・濱田松本法律事務所　弁護士)、大久保公策　氏 (国立遺伝学研究所 生命情報 DDBJ研究センター長)、末吉亙　氏 (潮見坂綜合法律事務所 弁護士)

データバンクの分析

 * データ共有の為のバンクレコードの一般的分析等はDDBJに関しては昨年までの事業報告に際し行っており再利用可能なプロセスがあります.
 * １億件を超えるデータバンクはレコードを研究単位でまとめ登録者の居住国別に分類する必要があります. 　レコードを研究単位にまとめる作業は登録者および参考文献の異同を用い、登録国単位にまとめる際には登録者の所属アドレスについて国名辞書および都市名辞書を用いて同定を行います. このプロセスは既に文献（１）で経験しています.

成果の社会国民への還元

 * 研究目的は科学政策上の資料として利用されることを企図していますので、結論よりはそのデータの再利用性をあげるように心がけます.
 * wikimeda 等を利用して　転用再配布可能(CC-BY)を明記のうえで研究途中の段階から　資料データを公開します.
 * プロジェクト単位のグループ化や国別分類は匿名でftp取得可能にします.
 * 分類の為のプログラムのソース等も同様に取得可能にします.
 * 学術誌に報告を公表します.

=関連著作報告=
 * 情報の運用論（その1） 大久保 公策 情報管理 Vol. 54 (2011) No. 3
 * 情報の運用論（その2） 大久保 公策 情報管理 Vol. 54 (2011) No. 7
 * 情報の運用論（その3） 大久保 公策 情報管理 Vol. 54 (2012) No. 11
 * DDBJ in preparation for overview of research activities behind data submissions Nucleic Acids Res. 2006 January 1; 34(Database issue): D6–D9. Kousaku Okubo, Hideaki Sugawara, Takashi Gojobori, and Yoshio Tateno
 * BodyMap-Xs: anatomical breakdown of 17 million animal ESTs for cross-species comparison of gene expression Osamu Ogasawara, Makiko Otsuji, Kouji Watanabe, Takayasu Iizuka, Takuro Tamura, Teruyoshi Hishiki, Shoko Kawamoto, Kousaku Okubo. Nucleic Acids Res. 2006 January 1; 34(Database issue): D628–D631. Published online 2005 December 28. doi: 10.1093/nar/gkj137, PMCID: PMC1347499

=参考= GEOSS: 邦訳　http://www.mext.go.jp/a_menu/kaihatu/kankyou/suishin/detail/1284743.htm OECDガイドライン MRCポリシー
 * 特集科学データの長期保全とグローバルな共有―ICSU世界データシステムの構築― [http://www.h4.dion.ne.jp/~jssf/text/doukousp/2012-06.html#hyperanchor1.3%3A%2F%2Fdiv%5B%40id%3D%26quot%3Bmainbody%26quot%3B%5D%2Fh3%5B2%5D(0)(3)(%E7%89%B9%E9%9B%86%E7%A7%91)%26%2F%2Fdiv%5B%40id%3D%26quot%3Bmainbody%26quot%3B%5D%2Fh3%5B2%5D(39)(3)(%E6%A7%8B%E7%AF%89%E2%80%95)
 * 科学技術をめぐる政策課題　2009 調査及び立法考査局　研究データについては言及されていない
 * 科学技術をめぐる政策課題　2007 分野別各論のみ
 * 科学技術をめぐる政策課題　2004 基本法の解説等