海外サイト状況

=海外サイトのインフラストラクチャ状況 (シーケンスセンターおよびデータセンター）=

インフラ概況
EBIのインフラストラクチャ管理の人の2009年度の報告、ホームページ、annual reportから拾える情報から判断すると 以下の模様.

さらに以下が述べられている.
 * 1) 従来分割されていたComputeFarm数自体は減らし、1つのEBI compute farmに統合する. マシン数は今後も増やしていく.
 * 2) 512GBのメモリを搭載したマシンを、2009年末までに5台以上増やす.
 * 3) ストレージ容量は増やすが、ストレージソリューション数(メーカ数)は減らす. 管理のオーバーヘッドを減らす為.
 * 4) OracleRACのデータベースサーバを12台増やす. (Linuxベース含む)
 * 5) 2009年からの試験的プロジェクトとして、HadoopのcomputefarmとAmazon compatibleのCloudをおく(EBI Cloud). これらはすべてオープンソースに基盤を置く.
 * 6) 2005年に建設されたWellcome Trust Sanger Insititute(Genome Campus)データセンタの広さは、ホームページの記述からは1000平方メートル. このデータセンターが4つの部屋に分かれている（下図参照).

WSTIの建屋の位置関係



計算機センター内外の様子



Sangerデータセンター内の4つのフロアの説明、4年間毎に、1つのフロアに更新をかけることを想定している.



CPU/Disk状況
次に、CPUコア数、ストレージ容量の推移のグラフを示す.



2008,2009年にストレージ容量が急激に増大した理由は、


 * 1) バイオ系データの容量が単純に増大したこと.
 * 2) 2008年に新しいプロジェクト(1000Genomeなど)をはじめたこと.
 * 3) ERA(European Nucleotide Archive Read) 2008年現在で、1.5PBになっていること.
 * 4) ディザスタリカバリのためにDuxfordのバックアップセンターに、データをミラーするようになったこと.

があげられている.

また、EBIの人が、インタビューに答えている内容からの、EBIのITリソースの増え方は以下のようである. (上のグラフのデータが 公開されていないが、別の場所でのインタビューに答えている. )

2005年にデータセンターを建設し、そこからITインフラが急増している様子が見える.

ネットワーク使用状況
センターのネットワーク構成としてはHinxtonにメインのセンターがあり、Duxfordにバックアップセンターがある. センター間のネットワークと帯域幅の関係は以下の ようになっている. (google mapで見ると、Duxford-Hinxton間は5kmほど) HinxtonとDuxfordの間のリソース配分については記述が無かった.



2.1 BGI(Beijing Genomics Institute:北京ゲノムセンター)インフラ概況
BGIの計算インフラストラクチャは、BGIの拠点が4つに分散していて、拠点ごとに分散している. 2009年時点の計算機資源の状況は以下のようになっている. 深圳に計算機資源が集中している.

計算機資源の大部分は4CPU×4Core、メモリが32GB～64GB搭載されたPCサーバ（ブレード）で構成されたLinux PC Cluster. ストレージは、一部にPallallel File Systemが採用されている. Isilon Systemsのプレスリリースから推測すると、Isilon の IQ36000XとIQ72000Xが1PB分以上は導入されている模様なので、Parallel File Systemの一部はIsilonのOneFSが採用されていると考えられる. BGIのホームページには、2010年に1PFLOPSのピーク性能を持つスーパーコンピュータ導入予定と取れる記述がある. BGI at Shenzhen自身が導入しようとしているのかはインターネット上の情報からはわからない. 本当だとすると、欧州が利用する計算機資源より大きな資源を保有することになる. 2011/2/18のBGIの研究者の発表(リンク)を見ると、以下のような計算インフラの表が記載されていた.

2009年から2010年までの間で異様な勢いで、インフラが増大している. ストレージはとうとう、1E(エクサ）Bまで到達したことになる. 1年で500倍のストレージを導入したことになり、にわかには信じがたいが、シンポジウムで発表しているので、本当なのだろうか.

また、同じ資料に、現在BGIに導入されているシーケンサーの台数が記載されていた.

次世代シーケンサーが200台超えている. また、データ生産量は、100GBbase/day(2009)、5TB/day(2010年末)と記載されている. また、Bio-IT worldの2011年2月号に、BGI Cloudという

受託解析サービスのようなものをBGIが始めた. ということが記載されているので（ http://www.bio-itworld.com/2011/issues/jan-feb/bgi-cloud.html )、これでお金稼ぐということか.

(追記)2011年の資料では、さらに中国国内で、1拠点（武漢(Wufan))が、加わっている.



かつ、ヨーロッパとアメリカに拠点を作ったらしく見える.



但し、これは、それぞれ受託解析を行う為の窓口として開設した模様( http://www.bio-itworld.com/2010/08/11/BGI-exclusive.html )

恐らく、1つのところに巨大なITインフラを立ち上げたということではなく、これらの拠点が持つITリソースを総計して、上のような巨大なリソースを実現しているのであろうと推測される.

３．１ Broad Institute
大規模なシーケンシング設備を持っている研究機関. MITとHarbardと、Whitehead Instituteの共同機関の模様. NGHRIの主要なシーケンシングセンターとの記述がある.

2009年夏以降で、BroadInstituteの中の人が発表している、次世代シーケンサーがらみの導入ストレージ量は、約2.5～3PB その内訳はほとんどIsilonのNASと、SunのX4540の模様.

Broad Instituteにインストールされているストレージの伸び方.



インストールしたストレージは、ほぼ使い切っている模様.

参考：Broad Instituteが所有していると思われる機械（Broad Instituteのメンテナンスをしていると思われる人が、写真を著作権保留で公開しているもの. 2008年12月撮影）



IsilonのNAS



3.2 NCBI
NCBIについては、総合的なITインフラがどうなっているかを示す資料がインターネット上見つかっていない.

3.3 The genome Center at Washington University
=3極+BGIでの比較(まとめ表)=

(※)NCBI SRAの階層ストレージ管理システムについて

FileTek社( http://www.filetek.com )のNewsreleaseによると、SRAのバックエンドストレージ管理ソフトとして、2010年3月に、StoreHouseがアーカイブ、バックアップ用途に採用された模様. Newsreleaseでは、2つのプロダクション用システムと、2つのバックアップ用システムの計4システムが導入される模様. これは地理的に分散された場所に設置される模様. 4システムの合計容量として最終的には12PBを用意する模様. （以上はNews release: http://www.filetek.com/newsandevents/pressreleases/199  より）

=次世代シーケンサーに対する各サイトのITインフラストラクチャの考え方=

概況・周辺状況
世界で導入されている次世代シーケンサー数の概況(すべてがカウントされているわけではない. )

http://pathogenomics.bham.ac.uk/hts/

一機関で次世代シーケンサーを大量に保有しているのは、BGI(中国)、Sanger Institute(EU、英国)、Broad Institute(米国）、The Genome Center at Washington University(米国)のように見える.

今後も、次々世代シーケンサー等が出現することが予想されていて、出力側の技術革新も含めて短期でも先のことを正確に予想しようとすること自体 できないというのが海外サイトでも共通認識になっているように見える.

その中の対応としては、BGIのように1EBまでとにかく用意するという考え方もあるが特殊で、基本的には、ITインフラ自体をある程度モジュール化して 柔軟に変化に対応できる（あとからの増設、方針変更が比較的容易である）ようにしておくというのが共通の対応のように見える.

Sanger Instituteのインフラ(特にストレージ）への考え方
Sangerセンターが受け付けている？あるいはSangerセンター内で稼働している、次世代シーケンサーの出力データの総塩基数(Base)の推移のグラフがあった. 2008年ぐらいから出力塩基数が非常に増えている. （そう計画してやっているのだろうが. ）



Sangerが保持している次世代シーケンサーは以下の様

Sangerの中の人の2009年～2010年時点の考え方は以下の模様

ストレージインフラの計画に際しては以下のことを考慮.


 * 出力される塩基数に着目すること. Byte(容量）で考えないこと.
 * Byte/Baseの係数をプロジェクトごとに算出すること（プロジェクトの目的によって、この係数は変動する. )

そう考えた上で、


 * 1) pipeline上のプロセスの中間ファイルの出力先のストレージ容量として、最大15*base バイトのストレージ容量をまず検討
 * 2) ファイルフォーマットを検討して上が削減できないかを検討
 * 3) 長期間保存する結果ファイルとしては、5 Byte/base までの容量のストレージを検討する.

Broad Instituteの考え方(特にストレージに対して)
Broad Instituteが所有している次世代シーケンサーは以下の模様

出力塩基数は、シーケンサー世代毎に以下のようになっている模様



HiSeq2000だと以下の様



データストレージは、データの種別に合わせて、以下のような階層で考えている模様.



この方針で2009年現在のストレージの使われ方は、以下の様



別のBroadInstituteの人(1000Genomeの関係者)の2010年時点の発表では、もう少し詳しいワークフローが出ていた. まず、Broad Instutute内のシーケンサーの生産能力（単体）は以下のようで、



SAMフォーマットが公開されて以降、解析ツール群をSAM/BAMフォーマットに合わせて整備すれば、こうなる. という 発表の流れの様.





以上のような状況の中で、Broad Instituteの人が、今後のストレージプランニングの為に言っていることは、


 * 1) Byteで考えずにBase(塩基数）で考えよ.
 * 2) Per Runで考えるな. Per dayで、一日毎にどれだけのbase数のデータが増えるかを考えよ. キーになる数値はGBase/日になる.
 * 3) シーケンシング技術は一般のIT技術より移り変わりが激しいので、柔軟性を持ってシステム設計をせよ.
 * 4) データのライフサイクルを設計せよ.

とのこと. また、2009年時点の目安として、1台のIllumina GAIIxに対して、
 * 2台の8コア32GBメモリのブレードサーバ
 * 30TBの中間ファイル用のストレージ領域

を割り当てているとのこと. そして、長期保存データの為のストレージについては


 * 1～3byte/base

程度の容量を考えるとのこと.

まとめのようなもの
Sanger InstituteとBroad Instituteが言っていることで共通なのは、
 * 長期の予測を立てることはできないので後から、計画が変更になっても対応できるようなシステム設計をしなさい.
 * ストレージ容量見積もりのベースをBaseに置きなさい.
 * 長期保存の為のストレージとして、受け入れBase数*(3～5) Byte程度のストレージ容量を見込みなさい.

(DDBJの場合受け入れBase数は何?)