DDBJスパコン仕様を考える

小笠原　理 under supervision of 高木利久　with help of 仕様策定委員会 & Takagi TF ＋　大久保公策
 * 新スパコン構築風景

DDBJスパコンセンターのタスク
サンガー法によるデータ（レガシー）　現在1TB, 2億件,  年率1.2倍 次世代シーケンサー由来データ  現在200TB,   5年後10PB～40PB?
 * DDBJのデータ受付・公開業務 (J-DDBJ)

受け付けた配列データのキーワード検索・BLAST検索など データ解析パイプライン　（大規模処理）
 * DDBJのデータ検索・解析サービス (w-DDBJ)


 * 生命科学研究者への計算機資源の提供


 * 現状のDDBJスパコン2011

過去のスパコン調達の反省
=クロノロジー=
 * DDBJの運用とそれを動かすスパコンの調達を一本で行っており落札ベンダーに運用系のプログラム開発ではなくサービスの提供を委託している.
 * このためにデータ受付システム　査定システム　リリース作成システム　検索システム　すべての業務プログラムは落札ベンダーのミドルウエアの上に構築されたベンダー所有プログラムとなっており、２５年の歴史を経て遺伝研自体にプログラムおよびライブラリなどの資産が全く蓄積していない. 　いわば裸の状態である.
 * つまり現行ベンダーの完全なロックイン状態:よほどの努力（調達前に”すべての運用プログラムをスクラッチから自前で作り上げる"）をしなければ他者による競争が全く不可能となる.
 * このようなロックインの弊害として長期間使用している業務用プログラムにもいまだに初歩的なバグが発見され続けるが　DDBJ側はベンダーに対して追加開発費を支払うなどしなければ改善を求めるカードを持たない（さもないとｘｘするぞと言えない）　
 * 2010-07-21第一回仕様策定委員会 (2010年7月21日)  現在のシステムについての現状報告と問題点の洗い出し
 * 2010-08-06第二回仕様策定委員会(2010年8月6日) 次期システムの要求要件に関する議論.
 * 2010-09-29導入説明会（資料招請）(2010年9月29日)、 施設説明会
 * 2010-11-24第三回仕様策定委員会(2010年11月24日)提案資料に関する各社のプレゼンテーションと討議@東工大蔵前会館・２階大会議室
 * 2011-02-24第四回仕様策定委員会(2011年2月24日)仕様書原案について議論
 * <Date>2011-03-30<Event>仕様書原案説明会(2011年3月30日)
 * <Date>2011-07-20<Event>スパコン入札説明会 (2011年7月20日)、施設説明会予定日
 * <Date>2011-07-28<Event>スパコン入札説明会 (2011年7月28日)<Note>台風で延期されて変更、施設説明会 も同時に

次期スーパーコンピュータシステムの特徴

 * 1) Data Intensive Computingに対応　（高速なディスクIOと、相応の計算能力）
 * 2) 5PBクラスの大規模なアーカイブ領域
 * 3) オープンなソフトウエアと柔軟なハードウエアシステム (目的別機器分割をしない）
 * 4) 知恵とアイデアの運用　（柔軟に運用するのに知恵と手間がいる）