旧DDBJスパコン(2006-2011)

仕様書2006
 * 超大規模遺伝子配列データベースシステムの構築(2008)　　菅原秀明,　山田弘明,　山田九仁  雑誌FUJITSU2008-9月号(FUJITSU 59.5,(09,2008)
 * 2002年の構成：

以下は上記の反省の元となる2008年調達スパコンの仕様書より引用

スーパーコンピュータシステムへの要件(2008年入れ替え時)

 * (1)爆発的データ増大への対応
 * 年率1.5倍で増加し，５年後には約4億エントリーとなる膨大な塩基配列データへの対応
 * 全データ更新間隔の短縮（3箇月→2箇月）
 * (2)高速かつ安定した検索. 解析サービスの提供
 * 相同性検索サービスでは高速レスポンスかつ高速スループットの実現. キーワード検索サービスでは，拡大し続けるデータに対して，検索条件によらず高速かつ安定したレスポンスの実現
 * (3)旧システムからの円滑な移行，ユーザ資産継承，互換性の実現
 * 各種サービスを実現する大量の既存アプリケーションプログラムの，短期間での円滑な移行の実現
 * (4)高信頼性の実現とセキュリティ対策
 * 世界3大データバンク間のデータ交換，国内外へのサービス提供を支える，安定. 安全なシステムの実現

新スーパーコンピュータシステムの特徴(2008)
新スーパーコンピュータシステムは，前節に示した要件を満たすべく開発された. その特長. 特徴を以下に示す.
 * (1)爆発的データ増大に対応したリソース配置とシステム設計
 * 基幹データ処理用として，大型SMPサーバ，大容量ストレージ，バックアップ装置，最新RDB管理ソフトウェアを組み合わせ，大量データの高速処理を実現
 * 相同性検索用および解析処理用には最新のＰＣクラスタシステムを採用し，分散処理による高速なレスポンスと高いスループットを実現・キーワード検索用には大規模XMLデータベース専用サーバを採用し，高速かつ安定したレスポンスを実現
 * (2)高速かつ安定した検索・解析サービスの提供
 * キーワード検索では，3000万件の複雑なデータに対して，複雑な検索条件でも10秒以内の安定したレスポンスを実現
 * 相同性検索では従来比5～8倍の単体性能向上と並列処理による高いスループット性能を実現
 * (3)旧システムからの円滑な移行，ユーザ資産継承，互換性の実現
 * 基幹のデータ処理用途には旧システムのＯＳと同様のSolarisを採用
 * 相同性検索処理用途にはデファクトスタンダードなＯＳであるLinuxを採用
 * 解析処理用途にはSolarisとLinuxを組み合わせて採用し，解析処理プログラムの特性に応じて最適な利用が可能
 * (4)高信頼性の実現とセキュリティ対策の採用
 * 活性保守対応および冗長化構成の採用，予兆監視機能による障害の事前検知の実現
 * 国産RDB管理ソフトウェアであるSymfbwareとHiRDBを採用

●スーパーコンピュータシステムの構成,性能の概要(2008)
今回導入したスーパーコンピュータシステムを構成する主要な機器を以下に示す（図-2).
 * (1)データベース構築. 公開用サーバ
 * 大型SMPサーバPRnvmPOWER2500（２８ＣＰＵ）
 * 大容量ストレージ装置ETERNUS8000（125Ｔイト）
 * ブレードサーバBladeSymphony
 * (2)相同性検索用サーバ
 * ＰＣクラスタPＲｍｍＲＧＹＲＸ２００Ｓ３（66ノード）
 * (3)キーワード検索用サーバ
 * 大規模XMLデータベース専用サーバShunsakuEngine（2520ＣＰＵ）
 * (4)解析用ｻｰパ
 * 大型SII圧サーバPRmmPOWER2500（３２ＣＰＵ）
 * ＰＣクラスタPRnmRGYRX200S3（66ノード）
 * (5)バックアップ装置
 * テープライブラリ装置VD800（750Ｔバイト）
 * (6)そのほかのサーバ/ネットワーク装置
 * ネットワークサーバPR1MRRGYRX200S3/RX300S3
 * スイッチ/ルータCatalyst6506/IPCOMS2400など新スーパーコンピュータシステムの主要な機器について旧システムとの比較を表-1に示す.

データベース構築. 公開用サーバ

 * データベース構築・公開用サーバは，DDBJのデータの一元管理，公開用データの作成を行うシステムであり，大規模データベースシステムの安定運用に実績の高いSolarisOSを採用した大型ＳＭＰサーバであるPRnmPOWER2500（２８CPU７８８Ｇバイトメモリ）を中心に，125Ｔバイトの大容量ストレージ装置ETERNUS8000およびブレードサーバBladeSymphonyを組み合わせて構成している.
 * データベース管理ソフトウェアとしては，データベース構築システム用にHiRDBを，データベース公開システムにはSymfbwareを用途に応じて採用している. データベースおよび公開用データは，大容量ストレージ装置ETERNUS8000に格納されており，定期的にバックアップ装置VD800にバックアップされるほか，とくに重要なデータについては，国立情報学研究所のサーバに接続されたディスク装置に遠隔バックアップも行っている. データベース構築システムでは，主として国内の研究者から塩基配列登録システムSAKURA(8)ならびに大量登録システムを利用して登録された塩基配列解析データを格納し，遺伝学研究所のアノテータと呼ばれる専門家がデータの確認や編集を行う. 確認後のデータはエントリー単位に編集した後，毎日，データベース公開システムに引き渡される.
 * データベース公開システムでは，データベース構築システムから受け取ったデータに加えて，EMBL/GenBankから追加更新データを毎日収集し，DDBJ形式への変更を行った上で，世界3大データベースが日々収集するデータすべてを公開している.
 * データベースはエントリー（フラットファイル）形式のほか，DDBJ-XML形式，ＩＮＳＤ－ＸＭＬ形式，EASlIlA形式でも公開している. 利用者はDDBJのアノニマスFTPサイト(9)から必要なデータをダウンロードして利用できるほか，エントリー単位での検索システムgetentry('0)や，後述する相同性検索システム，キーワード検索システムを用いて検索することができる.

相同性検索用サーバ
ルコアCPU×2個と８Ｇバイトのメモリ，140Ｇバイトのディスク装置（RAml）を搭載し，ＯＳには64ビットモードのIjnuxを採用している.
 * 相同性検索とは，ＤＮＡ配列，RNA配列，アミノ酸配列に対して生物学的な類似性をもとに行う検索であり，生命科学研究においては遺伝子機能の推定や進化解析などに広く用いられている. 相同性検索には検索対象データの種類や相同性検索アルゴリズムの違いから様々なソフトウェアが存在するが，現在ではBLAST，PSIBLAST，EASII1A，SSEARCH，HMMPEAMなどが広く利用されている. また，複数の塩基配列やアミノ酸配列の生物学的類似性をもとに整列するマルチプルアライメント解析も生命科学研究において広く用いられている.
 * DDBJでは，国際塩基配列データベースのほか，主要なタンパク質データベースを含む7000万件を超える（2007年11月現在）データベースに対して前記のソフトウェアによる相同性検索，およびマルチプルｱﾗｲﾒﾝﾄ解析（CLUST1ALW）をWebブラウザ上から利用できるサービス('１)を提供している. 検索結果はWebブラウザ上で参照するほか，Ｅメールによって受け取ることも可能である. また，Ｅメールによる検索依頼や，Web/APIを利用してプログラムから利用することも可能である.
 * 相同性検索用サーバには66ノード（うち2ノードは管理ノード）のPRTM~RRGYRX200S3から成るＰＣクラスタを利用している. 各ノードには，3.0ＧＨｚのデュア
 * 利用者からの検索リクエストはＮＱＳ（ネットワークキューイングシステム）を用いて各ノードに自動的に分散実行され，待ち時間の発生を最小限に抑え，利用者への高速なレスポンスと高いスループットを実現している‘，また，ＨＭＭＰＲＡＭでは，富士通研究所が開発した並列化版ソフトウェアを利用して超高速処理を実現している.
 * これらの性能向上により， とくに利用の多いBLAST/RASTA/CLUSTALWサービスでは，利用件数が2007年10月には前年同月比で110～130％と伸びている.

キーワード検索用サーバ
供している. SRS('4)に代表されるような従来のキーワード検索システムでは，検索条件が複雑になるとともに加速度的に検索レスポンスが悪化したり，データ量の増加に伴ってキーワードインデックスの生成に長時間を要したりするという課題がある. ベース専用サーバShunsakuEngineを利用する('4）ことにより，２４種/3000万件（2007年11月現在）のデータベースに対して複雑な複合条件検索でも１０秒以内（ 平均３ ～ 4 秒） のレスポンスを実現している. ルゴリズムで検索することにより，高速な検索レスポンスと省スペース，省電力を実現している. 本システムでは15台のShunsakuEngineと９台のLinux サーバを2ラックに搭載している.
 * DDBJでは，国際塩基配列データベースのほか，生命科学分野の主要なデータベース24種に対する統合的なキーワード検索サービスＡRSA(12),(13)を提
 * キーワード検索サービスARSAでは，富士通が開発したＸＭＴｊ型データベースエンジンShunsaku(13)を専用ハードウェアに搭載した大規模XMLデータ
 * ShunsakuEngineは，２Ｕの崖体の中にｌ６８ＣＰＵコアのマイクロプロセッサと合計４２Ｇバイトのメモリを搭載し，メモリ上に展開したデータを専用ア
 * これらの施策により，キーワード検索サービスでは2007年の利用件数が前年同月比で110～200％と伸びている.

解析用サーバ
のPRIMEPOWER2500と，分散メモリジョブに適した６６ノード（うち２ノードは管理ノード）のLinuxPCクラスタシステムを運用している. ＰＣクラスタシステムの各ノードには，３．０ＧＨｚのデュアルコアＣＰＵ×２個と８Ｇバイトのメモリ，１４０Ｇバイトのディスク装置（RAID1）を搭載し，ＯＳには64ビットモードのLinuxを採用している. より解析用サーバを利用することができる.
 * 遺伝学研究所内で共同利用する研究用. 解析用に，大規模メモリジョブに適したSMP型サーバとしてSolarisOSを採用した３２ＣＰＵ/128Ｇバイトメモリ
 * また，インタコネクトとして通常のGigabitイーサネットに加えてより高速なInfiniBandも搭載し，分散プログラムの高速な処理実行を実現する.
 * 遺伝学研究所の研究者は申請により解析用サーバを利用することができる. また遺伝学研究所以外の研究者も遺伝学研究所との共同研究において申請に

バックアップ装置

 * 容量750Ｔバイトのテープライブラリ装置VD800を導入している. 本装置は容量6.25Ｔバイトのディスク装置を備えており，このディスク装置に対してアクセスすることにより，自動的にテープ，へのバックアップ，/リストアが行われるため，テープ装置の存在を意識せずにあたかも750Ｔバイトのディスク装置であるかのように利用することができる.
 * バックアップ装置はＤＤＢＪのデータベースのバックアップに利用するほか，遺伝学研究所の研究者も申請により利用することができる.

ネットワークサーバ/ネットワーク機器

 * ここまで説明したサーバ類は遺伝学研究所のファイアウォールによってインターネットから隔離されている. さらに，インターネットに対･して公開するWebサーバ，ＦＴＰサーバ，メールサーバなどはDＭＺ（非武装ゾーン）に設置し，国際塩基配列データベースのような重要なデータを保管するシステムはサブネットワークを分離し，より強固なセキュリティを実現している.

今後の展望

 * 本スーパーコンピュータシステムは2007年３月より運用を開始し，現在まで大きなトラブルもなく安定して運用している. 本スーパーコンピュータシステムは，導入2年後に主要なシステムの性能，容量をほぼ2倍に増強することが導入当初より計画されている. 本スーパーコンピュータシステムの利用状況の分析を行うとともに，生命科学分野の研究における情報システムの利用動向を十分に考慮しながらシステム増強を実施していく予定である.