スパコン概要

スーパーコンピューターシステム導入の目的等

１．　はじめに 国立遺伝学研究所（以下、遺伝研）は1949年に創設され、1984年からは大学共同利用機関として位置づけられ、さらに、2004年には大学共同利用機関法人情報・システム研究機構の一員となった. 遺伝研はこの間、分子遺伝研究系、細胞遺伝研究系、個体遺伝研究系、集団遺伝研究系、総合遺伝研究系、系統生物研究センター、生物遺伝資源情報総合センター、構造遺伝学研究センター、生命情報・DDBJ研究センター、放射線・アイソトープセンターおよび実験圃場といった組織を拡充しつつ国内外における遺伝学研究の中核を担ってきた. また大学共同利用機関として、国際塩基配列データベース（日本DNAデータバンク（DNA Data Bank of Japan (以下、DDBJ)として担当）、系統保存研究事業とその情報センターならびにシークエンシングセンターによって、生命現象にかかわる学術研究の基盤を構築・提供してきた. （以上過去コピー） 
 * 2002-09-xx
 * 2002-11-xx
 * http://storage-system.fujitsu.com/jp/solution/case/010/pdf/genetics.pdf
 * http://jp.fujitsu.com/featurestory/2005/0223ddbj/
 * http://www.kantei.go.jp/jp/kanbou/21tyoutatu/4_computer/PDF/416.pdf
 * http://www.jbic.or.jp/bio_info/2003/JBICJOURNAL1.pdf
 * 2006-11-xx
 * 2004-07-07
 * 2005-02023
 * DDBJ-ARSA
 * DDBJ-ARSA

遺伝学研究所のスパコンシステムは、①国際DNAデータベース事業のアジア拠点機能の提供、②バイオインフォーマティックスセンターとして実験研究者への解析環境の提供、③理論研究者への計算資源の提供を３つの柱とするサービスの提供を行ってきた. そのための設備として①ＤＤＢＪ構築系マシン、②ＤＤＢＪファイルおよび外部データのミラーリングと各種検索解析サービスおよび独自データベース構築提供のためのクラスターマシン　③外部へのスパコンとしてのＳＭＰマシン　の３つをほぼ均等に配備してきた. しかしそれぞれのサービスおよび機器の利用状況は３年を経過して必ずしも均等でなく　昨年度から、転用可能な機器を再配分し利用に見合った提供形態に近づける努力を始めている.

一方で過去５年間にわが国、および世界の生命科学研究は大きな転換期を迎えており、現行サービス設備の利用状況およびこの動向を見据えた今後５年間に提供すべきサービスの内容を計画し、その実行を可能にする施設設計を行うものである.

時代背景 ２．世界の生命科学の転換　ビッグデータで身近で複雑な問題にとりくむデジタル生命科学 デジタルデバイスとネットワーク技術の進歩により、今世紀に入り科学は一層データへの依存度を深めています. デジタルデータは実験研究の出口近傍から、実験計画から仮説の検証まであらゆるステップにわたって利用される存在へと変わりつつあります. そのような中で「社会規模で良質なデータの蓄積とわかりやすい整理を行い社会全体で共有利用すること」が現在社会が直面している課題――例えば生活習慣病や新興感染症などヒトの健康にかかわる科学やヒトをとりまくエコシステムを考える環境科学、エネルギーや食物供給（農業畜産業漁業）問題など複雑で多要素的な応用問題――をアイデア豊かに解くための必要条件であると考えられています.

３．わが国のデジタル科学への備え わが国の生命科学においても1990年前後より研究社会全体の実験データのうち配列をDDBJが蛋白質構造をPDBJが国際的枠組みで保存管理提供しており、文献から分子関係データを抜き出したKEGGなども含め分子情報基盤を提供してきた. 一方でミレニアム以降の多くの大規模国家プロジェクトはそれぞれの施設で整理されて誰もがデジタル化されたこれらの全情報を統合的に利用することが困難になりつつあった. （参考）　この現状を受けて国民が「政府事業や科学研究のアウトプットを統合利用することを可能にする為に平成１７年度に開始された統合データベースプロジェクトはあらゆるデータや文献の統合利用の資源として辞書オントロジ作成に着手しデータアーカイブなどとともに第一期事業を終え平成２２年度から代２期を迎える予定である. 今後は統合データベースプロジェクトで立案される戦略下で機能するようにDDBJスパコンシステム事業は再定義されることが望ましい.

４．ＤＮＡ研究の社会化と多様化 今後５年間のDNAデータの中心は確実に個人ゲノムである. 欧米のDNA研究ではすでに技術上も制度上も個人ゲノムの同定公開が進んでいる（参考）. 今後わが国でも生活習慣病および癌などの大きな医学上の問題解決のために個人ゲノム同定が計画されている（参考）. 個人ゲノム情報を使った研究ではより大きな集団の解析が必要になるので今後５年間の間にわが国だけで数万人数十万人規模の個人ゲノムデータや癌ゲノムデータが決定されることは疑いない. 個人ゲノムの生データの保管に関して英米では広く共有利用を行うために国際DNAバンク構築機関であるNCBI,EBIがその任にあたっており、ＤＤＢＪスパコンシステムも内外からの共有の要請に備えオープンアクセス、コントロールアクセスの２階層でのデータの保管提供の準備が必要である. 一方でシーケンサーの新たな利用法の開発やその実践も盛んであり、農畜産物の育種領域でのゲノム解析や国際機関が主催する生物多様性研究や環境サンプルのメタゲノム分析、遺伝子発現情報(mRNA)、実験的に濃縮された多くのゲノム断片など　既存のまた新規のカテゴリーのDNA配列が個人ゲノムに匹敵する多数の検体から大量に生産されると考えられる.

５．国際ＤＮＡ配列バンク（INSD）の役割 EMBL/GenBank/DDBJの協力、いわゆる３極体制によるINSDの構築はデータ共有を目指す今世紀の科学でGoodPracticeとして必ず言及され、安定に機能する理想的枠組みとして期待されている. これは世界の特許事業における配列データの交換への利用や複数の国際的枠組みで生まれる各種生物多様性データの大多数への出口としての利用などの例ですでに始まっている. またレガシーと呼ばれる古典的データ以外にもNCBI-EBIとの間で個人ゲノムデータを含めた新型シーケンサーの生データ交換が３極体制で開始されている. 今後もこの実績あるデータ共有の枠組みは様々な局面で利用されると考えられる.

=災害時の経験　備忘録= スパコンセンタの存在はこれまで少数の特殊な科学を進めるものだった. 現在HP メイルなどコミュニケーションを含めてリナックスサーバーによる情報処理は科学全体の神経系になっている.

今回の災害で学んだこと

 * 現場で管理されているサーバーが被害を拡大した
 * 現場が被災するとローカルバックアップも同時に消失し回復不能
 * 節電停電時に地域単位の無数のサーバーの上げ下げ業務が発生する
 * サービス事業が落ちていると機能欠損は地域外に伝搬する