情報運用論for薬学図書館

=統合データベースセンターとデータベース統合プロジェクト=

大学共同利用機関　情報システム研究機構 ライフサイエンス統合データベースセンター　教授 大久保公策 同特任准教授 川本祥子 〒113-0032 東京都文京区2-11-16 東京大学工学部12号館 03-5841-7936 kousaku@genomatrix.com

１．始めに
図書館学の方々はニュートンの巨人の肩のお話しで情報の保存編纂の重要性を説明されます. しかし階級社会の英国で当時巨人の肩に載る機会に恵まれた人間はどれほどいたでしょうか？

米国独立宣言の草案で知られるトマス＝ジェファーソンは「情報はデモクラシーの通貨だ」と述べたといいます. 自由経済に裏付けられた米国型デモクラシーの実現には通貨と同じように情報も必要とする人やうまく活用できる人に行き渡らせることが欠かせないと説いたものです. 情報はあらゆる人の判断や理解に有益で通貨はアイデアを形に出来る道具です. しかし無策に放置すれば通貨は蓄財の道具になり情報は秘匿され権威の源泉になります. 情報や通貨の流動性の低い社会は公平な競争のない階級社会です. ですから自由主義やデモクラシーには通貨の寡占を防ぐ金融制度に加えて情報を政府や資本に独占させない情報制度が欠かせません.

科学社会は定期出版物を主要媒体とし、学会、大学、図書館にかかわる制度を主要制度とする科学情報がなるべく平等に行き渡るような生活史を長年かけて築いてきました. しかしデジタル革命後には逆に商業出版が情報の偏在化を高めている可能性が指摘され、さらに電子的に大量の科学データの登場によりネット時代に即した科学情報の生活史の再設計が重要な課題として世界で注目されています.

日本の生命科学分野ではこの課題について文部科学省の研究委託を大学共同利用機関法人である情報システム研究機構に新設されたライフサイエンス統合データベースセンターが受託し昨年度で最初の５年間を終えました. 今年度からは文部科学省の事業からJSTの事業として部分的に引き継がれています. 政府施策によって生み出される科学データは短期的に独占を許したとしてもやがては本来政府が責任を持って公開し保存し国会図書館や公文書館でしているように現在と将来の国民による利用を保証するべきです. このような簡単なことが計画から何年も経た現在も制度化されることなくその意義さえよく理解されずに半ば塩漬けにされています.

本稿ではまずデータベース統合の背景について復習し、初期のデータベース統合プロジェクトが残した成果について簡単に解説します.

2. 科学の燃料としてのデジタルデータ
科学の実践法はデジタル革命によって急速に変化しています. デジタル機器の進歩は多角的で詳細な自然現象のコピーとなるマッシブな多目的データを生み出しました. たとえば(1)天文学におけるデジタルイメージング機器　(2)生命科学におけるマイクロアレイやシーケンサー、質量分析器　(3)地球科学におけるワイアレスセンシング　(4)気象学におけるシミュレーション計算機　などのデジタル機器はマッシブなデータセットを生成します. これらのデータはアナログ時代のような「準備された質問への答え」ではなく個人の研究の文脈に依存せず、多くの科学者の観察を代行し、実験計画を助け、自由な理論形成やモデル化の材料として幾通りにも利用でき、枯渇しない科学の燃料です. しばしばわが国では「基盤データ」と呼ばれます. その結果科学のプロセス―観察、実験、理論、モデル化―の全てのステップが経験と直感からデータベースとプログラムを駆使する手法に変わりつつあります. この変化は基礎科学に限らず主要な知財エンジンと期待される応用科学でも同様です. 知財のエンジンである科学頭脳は基盤データで駆動されるのです. 創造性を競う科学での競争は基盤データへの平等なアクセスの上でのみ成立し、また世界中で共有してもデータは枯渇することがありません.

3. 国産基盤データの流通不全
生命科学では1990年代初め米バイオベンチャーによる機能不明のDNA配列の特許出願で「燃料としての基盤データ」の価値が社会に知られました. 機能不明配列の特許性がその基盤性から否定された後も創薬や医学研究を行う企業や大学にデータの使用権を売る米データビジネスが耳目を集めました（参考１）. 一方わが国では主に政府科学プロジェクト（注１）が基盤データの生産を担ってきました. そしてその成果は次々とデータベースとして「公開」されてきましたが５年ほど前からこのプロジェクト別の公開データベースが統合的に「利用できない」という問題が指摘されています（注２）. すなわち統一的でない利用規約を持つデータの統合利用は極めて煩雑であり、また不明の選別によって虫食い状態になった統合産物では、科学の燃料として観察、実験、理論、モデル化の全てのステップで利用できないというのです.

4. 問題の本質
この問題は科学社会で世界的に注目される「オープンアクセス運動」の問題意識とも共通するところがあります（参考２、３）. 公的科学の報告書である科学論文の商業誌による価格コントロールへの反発と説明されますが、実はそれ以外に科学論文全体を入力データとして行う高度な情報処理（注３）が購読契約で禁止されているという問題が併せて存在します. 閲覧できるが統合利用できないというわけです. すなわち二つの問題は特許化できない公共科学の産物である論文やデータの資源としてのポテンシャルがデジタル化によって増大し、新たな研究や産業にとって重要な価値を持ち始めたことで、閲覧で満足できた時代には最善に見えた科学制度において少数の情報のコントロール権者が生じていることが問題にされているのです.

5．科学政策と知財政策との整合性
わが国ではミレニアム以降、基盤データ生産の為に政府プロジェクトは年間数百億円の予算を投じ、主に大学や公的研究機関がこれらを受託してきました. しかしながら未だにデータのコントロール権についての明確な規則やその流通形態の「皆の認める模範」が存在せず公開の有無、公開する時期やその利用条件は事実上代表研究者の判断に任されています. その結果が最初に挙げた現状です.

この事態はわが国で科学にデジタル革命が浸透した時期にそれとは独立に起こった科学制度上の大改革と無縁ではありません. それはTLO制度(1998)、データ生産を担う委託研究を対象にしたバイドール制度(1999)、大学法人化(2004)などのデジタル革命以前 80年代の米国科学制度の導入です. このような80年代の科学制度群と21世紀の予算規模や研究実践法を同時に与えられた科学環境の中、研究者社会や法人化した大学は科学の燃料となるデータ共有を進める代わりに、民間企業によるデータ利用への課金制度を工夫したり、機関への価値付加の為に機関内部での閉鎖的データ統合を進めるなど以前よりデータへのコントロールを強化する行動をとる傾向すら見受けられます.

一方公的科学の民営化後約30年を経て、次々と大型研究を進める米国では過去10年間に急速にデータや論文の公共財化を進めています（参４）. その背景には情報インフラが完備された環境では公共の電子コンテントの整備が国家規模のイノベーション力の増進と発揮に欠かせないとの認識と（参５） 、学術誌のオープンアクセス化やデータ共有(Data Sharing) についての年余に亘る十分な合意形成（参６-８）、さらにデータの流通を支える明確な法制度群の充実(注４)があります. この思想的、政策的、法的背景によって知的財産権を守りながら基盤データへの十分なアクセスが作り出されているのです.

6. 世界の潮流「知識へのオープンアクセス」
さらに、今世紀に入り地球規模で広がる｢知識に対するオープンアクセスへの潮流」という文脈の中でもデジタルデータのコントロール権について考える必要もあります. 知識へのオープンアクセス運動は多国間の非政府運動として、ブダペストオープンアクセス宣言(2001-) やベルリン宣言(2003)によって知られていますが（参９）、現在既に１１カ国で政府系、民間あわせて36のファンディング機関が研究報告論文のオープンアクセス（36/36）、および研究データのオープンアクセス（16/36）に関するガイドラインを設けています. （参１０）　アジアでは中国も 2006年に分野別データセンター新設を含めたデータ共有政策を進める旨を表明しています. （参１１） 各国の科学政策と歩調を合わせ、2004年にOECDでは我が国を始めとする加盟国および中国他を含めた 30 ヶ国政府による宣言 “Declaration on  Access  to Research Data from Public Funding”を採択し、２００７年のOECD　Principles and Guidelines for Access to Research data from Public Funding が出されました. この中では, 経済の持続的な発展のためにも公的資金による科学データへの自由なアクセスと利用が望ましいことを宣言し（参１２）　科学データの扱いについての理想的な原則を端的によくまとめています.

7. 統合データベースの実務的成果
データ中心の科学においてデータは重要な燃料として機能しますが、デジタルデータは無限に複製可能で枯渇しない燃料です. 知財エンジンと期待され始めたわが国の公的科学において、燃料であるデータの独占による知財取得やデータ利用に対する課金は、90年代の米国バイオベンチャーと同様の態度です. 彼らの失敗に明らかなように、現在の大きなデータを独占を許す方法は長期的にはデータの利用機会を減らし、データの持つ価値を損ない、データを中心とする新分野や新産業の育成機会を失うことにつながります. 加えて政府から委託うけることでデータのコントロール権を得られる我が国の制度は、科学社会を国民でなはく政府を頂点とする権威主義的な身分社会に変貌させ、科学者から高いモラルや自由な発想を奪います. 残念ながら我が国の科学ではすでに過去10年以上にわたって放置され、政府から大きな研究委託を受ける固定メンバーの周辺から身分社会化が進んでいます. このような状況は我が国ではいたるところで見受けられるのでどうしようもない日本社会の特徴なのかもしれません. 第一期の統合データベースプロジェクトは最大の目的であった政府施策由来の大規模データの共有に向けてその制度化については見るべき成果を上げることができませんでした. 一方で科学プロジェクト的成果以外に実社会への働きかけを通じてデータ共有と科学の民主化に対する草の根的なアプローチでは小さな成果をあげることができました.

１）クリエイティブコモンズ・ジャパンとの協力 クリエイティブコモンズ(CC)は著作権を好み通りに放棄する簡単な方法をクリエイターに与えることでデジタル創作物の共有再利用を助ける運動をしている世界規模のNPOです. 統合データベースプロジェクトではCCジャパン理事の野口祐子さんと同じくCCの理事をなさっている著名な知財弁護士の末吉亙先生に相談役をお願いして彼女の師匠にあたる著作権法の中山信弘先生をはじめ日米CCの主要メンバーに直接質問しながら問題に取り組むことができました(参13）. 　そしてCCライセンスの我が国の科学での説明普及は遠い目標に対するプロジェクトの成果の一つです.

２）和名学名等の学術用語のデジタル化と共有財化 ＣＣジャパンの方たちの助言によって学術用語自身には著作権など存在しないことを知り、何らかの著作権があると記されている学術用語集をはじめとする各種出版物から網羅的に用語のみを集め、電子データとして公開できました(参14). これまで先輩方が苦心して名づけ普及に努めてきた多くの日本語を我が国の歴史で初めて再利用自由なデジタルデータの形でようやく解放できました.

３）　日本語総説誌バックナンバーの公開と新電子ジャーナルの創刊 共立出版が唯一維持していいた総説誌である蛋白質核酸酵素は日本の分子生物学とほぼ歩みをともにする日本の生命科学にとって大きく貢献をした雑誌です. しかし紙媒体での出版に限定しているために過去の記事がgoogle等の検索に供されることはなく書店や図書館に眠っている状態が続いていました. そこでこれらを検索可能で誰もが読めるものにしようと多くの先輩方の力をお借りして共立出版の経営陣の方々とお話しをする機会をいただきました. その過程で読まれることのなくなった多くの記事にまた命を与える方法につき年余に渡り議論を重ね、紙面の電子化からサーバーと公開システム構築までをプロジェクトで行うことで、我が国では例のない商業誌のバックナンバーの無償公開を行うことにご協力をいただくことができました(参15). きわめて残念なことにプロジェクト期間中の2010年にこの雑誌は閉刊されましたが、最後の編集長の飯田啓介氏はこのやりとりを通じてプロジェクトとの同化をすすめ、雑誌廃刊後統合データベースセンターに仕事の場所を移しFirst Authors（参16）というプロジェクト発の科学解説電子ジャーナルを立ち上げました. この雑誌は有名雑誌に掲載された日本の科学研究をその著者にそのまま解説してもらうという一見翻訳企画のようなものです. しかし実際はCCライセンス(CC-BY)でネット公開することで記事や写真の再利用を容易にし、誰もが我が国の公的科学の解説著作を再利用し科学コミュニケーションや教育に利用できる道を開いた点は全く前例のないものだといえます.

４）　草の根医学コミュニケーションの応援 医学的な知識やアイデアをネット上で共有ようとする意欲のある多くのユーザーにとって自由に使える解剖イラストレーションは強く促進的に働く材料です. これまで著作権のない解剖イラストレーションはごくわずかしかありませんでした. そこで主要な解剖学用語に３次元データで形と位置の情報を与え自由に組み合わせ無限のイメージを作れる環境をネット上に提供しCCライセンス(CC-BY-SA)で再利用できるようにしました. このシステムBodyParts3D(参17) で作られた多数のイメージは不特定の共鳴者によってWikimedia commons に登録され　Wikipediaをはじめ多くの記事で利用されるに至っています.

8.終わりに
これらの成果はそれぞれ極めて小さなものです. しかしながらこれらの事例が全体として示している事は政府や行政がつくる制度なしでも世の中を誘導する方策がありそうだということです. そのゴールが公共の利益に叶うものであれば情報技術や専門知識の駆使によって多くの個人に内在する善意を集めて大きな成果が生み出せる期待が持てます. 利益調整に時間を費やし遅々として制度改革の進まない我が国ではこのような方法の洗練と普及こそがデータベース統合のみならず我が国をイノベーションに富んだ国に変える早道かもしれません.

脚注
（注１）政府科学プロジェクト　科学技術基本法(1996)を根拠とする科学技術基本計画の実現の為に施行される政府施策としての科学プロジェクト. 予算規模が大きく数年間の年限を持つために高額な分析器を並べて行う大規模な基盤データ取得を行うプロジェクトが好んで施策に含まれる. 生命系のプロジェクトは統合データベースを参照されたい (http://togodb.dbcls.jp/lsdb_project/ )

（注２）例えば「分野別推進戦略」（平成１８年３月２８日総合科学技術会議決定）においては「ライフサイエンス分野の課題として、新規の医薬品や医療機器の産業化に向けた「実用化研究の基盤」が十分に整備されていない」と指摘されている. （http://lifesciencedb.jp/sciencepolicy/）

（注３）　電子論文はダウンロードしてプログラム的に処理することが可能になれば情報抽出、意味解析など自然言語処理と呼ばれる技術によって必要な論文にたどり着くことだけでなく目的に合わせ内容の整理理解を効率化できます. 説明的叙述の集合である生命科学分野の知識には同技術の貢献が期待されています（参考）情報処理学会誌　特集ポストゲノム時代に高まるバイオ自然言語処理への期待: （2005　Vol.46 No.2） （注４） 米国科学情報の公開制度 1.　The Paperwork Reduction Act (44 USC 35) 文書電子化法：　「政府によって生産され集められ維持され利用され共有され配布された情報の利用を最大化することで最大の公益を約束する」 2.　The Office of Management and Budget (OMB) Circular A-130 財務管理局令A-130 : 「開かれて効率の高い科学と技術と政府の情報は優れた科学研究と効率の高い連邦研究資金の利用を育む」 3.　The 1991 Supreme Court ruling in Feist Publications, Inc. v. Rural　Telephone Service Co. (499 U.S. 340) 　Feist出版と地方電話会社裁判の最高裁判決では　「事実は著者が生み出すのではなく、オリジナルでもなく、従って著作権の主張はできない 」“ 4.　Copyright law (17 USC 105) 著作権法　著作権法は連法政府の全ての作品(any work)には適用されない 5.　The Freedom of Information Act (FOIA; 5 USC 552) 情報公開法　は連邦政府の記録に関する市民のアクセスを保証します

参考文献　URL
（参1）坂井昭夫　米国バイオ関連特許の発展とその含意」（『経済論叢』第173巻第1号、2004年1月 （参2）　オープンアクセス解説　土屋俊ら　(http://www.openaccessjapan.com/about.html ) 日本の学術情報システムにおけるオープンアクセス化へのアプローチ　水田洋子　(http://133.11.132.80/intelligence/report/openaccess/index3.html) （参3）　Open Access Bibliography Charles W. Bailey, Jr. 　 (http://www.digital-scholarship.com/oab/oab.htm ) （参4） http://grants.nih.gov/grants/sharing.htmその他制度はhttp://133.11.132.80/intelligence/report/law/index7.html （参5）　Bits of Power: Issues in Global Access to Scientific Data. (1997) National Research Council. （参6）A Question of Balance: Private Rights and the Public Interest in Scientific and Technical Databases (1999)National Research Council. （参7） The Digital Dilemma: Intellectual Property in the Information Age (2006). National Research Council. （参8） Engaging Privacy and Information Technology in a Digital Age (2007). National Research Council. National Academy Press (http://www.nap.edu/catalog/11896.html) （参9）ブダペスト宣言　http://www.soros.org/openaccess/help.shtml ベルリン宣言　http://oa.mpg.de/openaccess-berlin/berlin_declaration.pdf 日本語での解説は「研究助成機関とオープンアクセス情報管理48(3) 133-143」を参照 http://www.jstage.jst.go.jp/article/johokanri/48/3/133/_pdf/-char/ja/ （参10） 世界の研究助成機関の成果に対するオープンアクセスガイドライン　http://www.sherpa.ac.uk/juliet/index.php （参11）http://www.scidev.net/en/news/china-unveils-plans-to-boost-scientific-data-shari.html （参12）OECD 2004 共同声明　http://www.oecd.org/dataoecd/42/ 12/35393145.pdf 翻訳はhttp://133.11.132.80/intelligence/finality/pdf/finality_01.pdfにあり　解説は An International Framework to Promote Access to Data(2004) Science 19 March, 303, （参13）シンポジウム「科学における上手な情報の独占と共有」：http://www.ustream.tv/channel/dbcls-symposium （参14) 生物名称辞書の詳細　　http://lifesciencedb.jp/cc/?p=32 (参15)PNEバックナンバー統合検索　http://lifesciencedb.jp/pne/ (参16) 新着論文レビューFirst Authours, http://first.lifesciencedb.jp/ (参17) BodyParts3D, http://lifesciencedb.jp/bp3d/