事業委員会用報告

Kousaku Okubo =DDBJ report 2012=

=DDBJ expenditure report= 2011年度収支報告 【収支】                       単位：円 項目	金額 本年度配分額	1,129,188,000 支出合計	1,128,185,160 残金		1,002,840

【費目別支出】　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　単位：円 費目		金額		内訳		内訳金額	備考 毎年執行	950,678,841 	スパコンリース及びDDBJ DB構築支援・運用開発業務 出張関係	2,506,729 	国内旅費		1,165,490 海外旅費		1,067,885 学会参加費		273,354 物品関係	25,479,059 	機器類			17,531,037 PCプリンター関連消耗品	2,421,723 環境整備費		4,586,584 図書			553,779 その他			385,936 開発		31,946,000 役務		11,891,272 	工事・修理		9,524,045 印刷・宅急便等役務	2,367,227 人件費	      105,150,778 特任研究員(出向)		       12,907,108 特任研究員				59,697,939 日々・時間雇用				32,545,731 コピー機保守						80,178 通信費							452,303 支出合計						1,128,185160

【主要な支出項目】毎年執行分および人件費以外 1.	スパコン更新時　サービス中継ぎ用サーバマシン 　	1,010万円 o	第1期、第2期　にわけスパコン棟3階に設置　　　3月から現在も稼働中 2.	主要サービスオープンソース化開発 　内部と外注 o	エントリーリトリーバルgetentry	 (小笠原情報数理) 676万円 o	キーワード検索ARSA (小笠原-RNAi)		  472万円 o	SAKURA再構築 (アノテータ-英和)		 	1,250万円 o	Pipeline (神沼-富士ソフト) 	               125万円 3.	サービスプログラム移植 (小笠原日立ソフト) 	  640万円 4.	スパコン棟２階改修　			  	600万円 5.	スパコン棟２階から移動するエンジニア室新設　	300万円

事業用プログラム書き換えとは何か？
data and graph by Osamu Ogasawara with Takagi lab. 事業用基幹プログラムCopyrighted by Fujitsu, (左）　-->> 新基幹プログラム Copyrighted by DDBJ' or Waived(右）

=DDBJ to do plant in 2012= 2012年度事業計画「新規導入されたスーパーコンピューター利用環境の整備と次世代シーケンサからのデータ対応の拡充」　高木利久

１．DDBJの業務ソフトウェアおよび提供するサービスの開発、運用、維持管理、システム移行についての作業の効率化
動作環境の制約、所有権、システムの一貫性、動作性能等について調査を行い、ソフトウェアをオープンソースのミドルウェア上で再開発を行うこと等の対策をとることにより問題を改善するという作業をここ２年以上に渡って行ってきた. ソフトウェアの再開発等、改善作業は概ね順調に進んでおり、特にDDBJデータベース構築業務ソフトウェアの性能が改善され、また様々な制約の改善により今後の追加開発も容易になった. 本年度は、以上の成果をベースに新規導入されたスーパーコンピューター利用環境の整備を行い、業務ソフトウェア及びサービスに関する機能の拡張に取り組んでいく

２．配列票登録用ウイザード開発：SAKURA後継
ウェブ経由の配列登録用ウィザードプログラム（次々に画面遷移して登録を導く）であるSAKURAは、12年間付加的な改変を繰り返し利用されてきたが、非常に古いミドルウエアを要求することや技術仕様が不明確なために手のだせないブラックボックスである. 現在富士通のご厚意により期限付きで使わせていただいているので本年9月の使用期限までにDDBJが権利を持つよりよい代替品を開発する. （昨年から継続）

３．生データ登録　交換　連携システム開発
DDBJでは、2008年からデータベース統合プロジェクト（代表高木利久）の委託により次世代シーケンサ生データの登録公開用、DDBJ Sequence Read Archiveを構築し、2010年から事業費でその運用にあたっている. 2011年度は約400件、10TBのデータ登録を受け付け十分なスパコンディスクの裏付けで安定に運用している. 一方新型シーケンサの生データは多型情報、転写情報、メチル化情報等利用目途が多様化で　それら目途にかなった下流での情報整理への対応についても立案し着手することが望まれる. （競争開発課題との中間）. まずは転写情報についてマイクロアレイアーカイブ(旧CIBEX) との連携を立案し実践する.

４．個人ゲノム生データ用コントロールアクセスアーカイブ
次世代シーケンサの普及とゲノム医学進展により、医学グループ内に限定して共有したい大量の個人ゲノム情報が蓄積してきており、国内における選択的共有サイトへのニーズが大きい. 欧米では、DDBJのカウンターパートナーであるNCBIとEBIには個人ゲノム用限定公開サイトが存在する. 本年度は、フィージビリティ評価期間とし、上記システムを構築後、特定のデータ生産者を対象に、システムの評価とニーズの把握、確認を行う.

５．スパコンリソースの遺伝情報分野の研究者への解放と運用の効率化、透明化
新スパコンは国内スパコン１１位の性能があり10Tを搭載したマ遺伝情報分野の研究者に対して、解析サーバ、ストレージ環境のリソースを提供する. また、利用者の名前、所属、利用目的は原則として公表すること、およびスパコンの利用状況をリアルタイムに公開することなどにより、スパコン運用の透明性を確保し効率化を実現する. 上記のような現在分野が行っている計算の規模と種類を表現したデータはほかの方法では作成できるものではなく、この情報を広く公知にすることは分野専用スパコンの存在意義・使命の一つであると考える

=Questions about DDBJ/supercomp=

報告書ではDDBJ事業のユーザーアクセスが減少してるんですが？
減少してるのはウエブ経由の単純なエンドサービスです. 歴史的にADDを続けてきた各種サービスから利用者数のわりに維持費がかさむ・利用者が狭い・重複している・かつ代替サービスが他にあるサービスを中止しました. 一方でスパコン資源の丁寧な解放やスパコンを使った二つのワークフローサービスを開始しています.

アクセス数の減少はGIB/GTPSを中止したことによります. GTPSは菅原先生が富士通とBIRD事業で7年前に開始したサービスで NCBI-Goldに登録のある微生物の全ゲノムレコードを取得して　彼らのオリジナルのワークフローでCDSの発見から名づけまでをやり直し、閲覧ダウンロード可能にした２次的サービスです. GIBはその結果のアノテーションのビューアーです. 問題は二つあり、このサービスのプログラムの多くがCopyRighted by FUJITSU でありデータ更新を含む維持には相当のコストがかかること. もうひとつは同じ菅原先生が違うベンダーInSilicoBiology(大山)と同じ機能のワークフローをＭｉＧＡＰとして作り直し(統合データベース事業)現在スパコンに移植が終わり相当数の利用者が存在することです. 菅原先生と議論の末二つを維持する無駄を排しMiGAPに統一することにしました. スパコンMiGAPによって再アノテーション機能(GIB)と利用者による新規アノテーションの双方を行う計画です.
 * 中止したサービスの選択とその理由

http://farm8.staticflickr.com/7066/6940451121_25a17898b2.jpg Data Akira ohyama, Kouji watanabe, K.Okubo
 * 統計に加えていない新規サービス(ワークフロウ)
 * 1) DDBJ-Pipeline
 * 2) DBCLS-DDBJ MIGAP　　メガベース単位のDNA配列を受付て遺伝子予測をして返す仕組み. 　250万のCDSを予測（250万回のアクセスに相当) 大腸菌ゲノム　1000くらい

DDBJsupercomp の機能的評価
DDBJスパコンは95年の導入以来初めてその能力をほかのスパコンセンタと同じ尺度で測定するベンチマークテストに参加しました. 分子生物利用に特化して大きなディスクサイズやLusterによる早いdisc I/Oを導入しかつ２段階導入の一期目であることや一部の大メモリマシンの導入など　いろいろFLOPS最大化用のセットアップに比べて不利になることは承知の上、客観的な指標は今後の計画の上でも大切であると考えた（高木）うえのことです.


 * Top500entryによる評価　日本で11番目 6月現在国内21位に低下

Data by Osamu Ogasawara and SC team
 * CPU単体では遺伝研スパコン(166Gflops)のほうが京(124.8Gflops)より速い.

DDBJ BLASTの評価　100倍高速化

 * 使っているリソース量の比較 ざっくり計算資源の何割くらいか？程度
 * 旧スパコンは、全リソースの約1/6 (約300コア)、現スパコンは全リソースの約1/20程度 (約270コア）がBLASTに割り当てられている.
 * 同じ条件でのパフォーマンスの比較 テスト配列と検索時間　対応条件では100倍速くなっている

Web interface からコピペで投げると　それぞれ default parameter target=古典的区分の配列データ (DDBJ定期リリース+新着データ. 但し以下を除く; PAT,ENV,EST,STS,GSS,HTG,HTC,UNA,SYN,TSA）
 * 1) AY190604 90sec,
 * 2) Aj322533, 8.0 sec
 * 3) http://getentry.ddbj.nig.ac.jp/getentry/ddbj/AJ322533 20sec


 * Data by Kawagoe and Osgasawara

DDBJsupercompの登録ユーザーの変化
http://www.ddbj.nig.ac.jp/cgi-bin/userinfo_web.html 公開後２か月で登録利用者は200人を超え　多くの外部機関の研究者が多様な目的に利用している (もちろんメイルアドレス取得はもうカウントしていない）
 * 旧スパコン利用者は誰か？　メイルだけの登録者がほとんど. 　実際にログインして利用するのは年間　所内の５－１０名くらいであった.
 * 新スパコンの利用者とその利用目的

DDBJsupercomp稼働率の変化
新スパコン稼働率　2012-06-19
 * http://www.ddbj.nig.ac.jp/system/supercom/supercom-util.html
 * 過去の稼働率 *old:http://rgm3.lab.nig.ac.jp/Repository2/nig_supercomp0/table1.html ( password required

Captured page created by SC engineers for DDBJ