Executive Summary for Replacement of Supercomputer in 2011-12

スパコンの調達について、いわゆるベンダーロックイン等の調査を電子計算機委員会で正式に行うよう所長から諮問がありました. 正式には富士通から文科省に苦情の申し立てがあったことに応えて調達の経緯や富士通の現行スパコン運営等につき遺伝研側の内部調査を実施せよということです. =事態のご説明= 2010年7月より開始された新スパコン調達の過程において2011年8月22日に当時スパコンおよびDDBJ運用請負業者であった富士通株式会社より文部科学省あてに調達仕様内容が不公平である旨の苦情があり、さらに同9月14日の技術審査委員からのベンチマーク視察要請に対し同21日にベンチマークを放棄した後は同11月29日に契約不備を理由にレンタル中のスパコンのレンタル期間終了後の撤去を行わない旨の通告をするなどを行い、当研究所の業務やクレジットに対して看過できない悪影響が生じています. 調達側を代表して電子計算機委員会に対して背景および事態の内容についてご説明し資料を提供します.
 * 事態のクロノロジー[]
 * 苦情書面(資料p667) 返答(資料p671-)
 * 撤去しない通達(別紙[[File:富士通 スパコン撤去回答.pdf]]）

=背景:そもそも遺伝研スパコンとDDBJ事業の関係= 1995年遺伝研にスパコンセンターが設置されて以降　DDBJスパコン調達ではDDBJ業務(サービス）と計算機システムを一式として調達してきました. つまりスパコンを受注した業者がDDBJスタッフの指導のもとDDBJ事業を行ってきたといえます. 95年以来このような体制が続いた結果　先に運用調達仕様では"DDBJにおいて独自に開発した(OK注:疑問あり）ツール群の保守と機能強化および必要なツール群の新規開発"とありますがDDBJにおいて”DDBJスタッフが”設計開発したのではなく富士通がサービス提供の為に開発した彼らのツール群です. 交換公開系プログラムリストとcopyright記述
 * 歴史と落札履歴History of DDBJを見る限り日本の生命系スパコンはすべてこのDNAデータバンク事業と無関係ではありません.
 * 過去のDDBJ事業の調達範囲 []
 * 全ツール群のリスト
 * リリース構築処理ソフト対象プログラム一覧（DBT／新規）:ほとんどが20年間書き足しでできたsolaris用のスパゲッティプログラム. いつまでもトップエンドの高価なSMPマシンを調達しないといけない理由のひとつ. GenBank, EMBL形式をDDBJ形式に書き直す変換作業だがそのステップ数の多さは異常. 　年余にわたり生じたフォーマットへの修正をadditiveに対応している結果. 　またDDBJはNCBIのASN.1に相当するような記述力の高い内部形式(遺伝型）を持つことなくデータ交換用のFF(表現型）にすべての記述を頼ってきたために加筆されたアドホックな修正は後々気持ちがわからない.
 * リリース公開系のソフト　(資料p15-19)
 * 業務用ソフトの数と大きさ(資料p246)
 * 全マシンのリスト

=過去のDDBJ事業フローの診断=
 * スパゲティコード: All rights reserved なので提示できません.
 * 複雑怪奇な作業フロー: これを担当者から説明されても理解することはもはや不能です.  [
 * いまだに新規エラーの見つかるEMBL->DDBJ変換　 ページ下半分に実例
 * 何もわからないアクセス統計レポート: 外にいていつも見せられた増大一遍の利用統計. 生ログを分析すると全く別の事実を語ります.
 * 構築系は年４回のリリース作成（全GenBankファイルをDDBJ形式に書き換える）にすべて必須であり、その作業能率はp24にあるように決して高いものではありませんが、改変の為には設計も含めて彼らに追加発注するしか手がありません.
 * また公開系のソフトのうち例えば利用率の高い[]必須サービスの中でレコード取得(IDを入れてレコードを返す)=getentry (p15)は富士通製のRDBの上に自社で作成したプログラムでありプログラム自体の権利が富士通にあるだけでなく富士通製のマシンと富士通製のミドルウエア以外では動作しません. (p144-146)
 * また全文検索システムのARSA(p16)は富士通製のShunsakuと呼ばれる大メモリーの専用装置の上に皮をかぶせたもので全く検索エンジンのソース自体にはアクセス不可能です. (p144-146)
 * そもそもこの装置の大規模な導入事例はDDBJが最初で最後なのではないかと思わせる.
 * movieの最後の２列のラックがShunsakku []
 * それぞれのレンタル価格は前回導入の積算根拠(p412-)

このように25年間スパコン予算および事業費による追加開発予算で作り上げられたシステムのほとんどすべてが富士通の所有です. 遺伝研だけは利用させてもらえますがリクエストされても科学分野で共用することもできません. 富士通しか開発詳細を知らず他の企業の参入やスタッフ主導の改革もほぼ不可能な状態はベンダーロックインと呼ばれます. 巨大ＩＴシステム系では非常によくみられる現象で、あらゆる企業はむしろロックインすることを営業戦略と考えています. サービスを提供し依存させて他の選択肢を断つ営業戦略は企業には当たり前でむろん違法でもモラル違反でもありません. 大きな税金を預かる調達側が彼らの術中に落ちず競合他社の参入機会を保つためにその責任にふさわしい努力をしなければいけません. ボトムラインは調達側の手抜きです. ロックインに落としたりロックイン状態を維持するために利益供与等をすることもありふれたことですが、それは当然違法です. DDBJ事業は未公開のと事例リンク政府調達の精神

=肝心のスパコンはどこにある？=
 * ハードウエアとしてスパコンは別ページのように構成されています　現状のDDBJスパコン
 * 100近いすべてのアイテムが富士通製です（HiRDBのみ日立製）(資料P44)
 * 一般に開放されているいわゆるスパコンセンター機能はSMPマシンが担っています. (p145項番10)　富士通製ソラリス機　Primepower 2500 (価格は　p412資料　）
 * これの利用状況は最近のものはp28-p29　　５年間トータル全ログ解析は別紙(小笠原調査）　全ログデータ提出済み
 * ウエブ上でノード別にご覧になりたいかたは...

=ロックインからの脱出　TTF= []
 * 1) 事業のボトムラインを作り変える: DDBJ事業のボトムラインは登録受付系です. 　受付を円滑に処理し、Genbank, EMBLに渡すことで、日本の科学データの再利用性を助けます.
 * 2) Shunsakuが担っていた全文検索をオープンソースで:ワード検索はほかの事業に比べて仕様だけは明白です. だからこそShunsakuをARSAにできたともいえます. 　この簡単そうな課題も実はなかなか難しく、例えば結局契約期間中にShunsakuは約束していた全DDBJの検索をできませんでした. レコード数が大きなESTがラック４本も専用機を並べても入りきらなかったのです. ESTは正式なDDBJ-divisionですから困ります. 　これにはオープンソースのapache solar や　mongo DB で小笠原さんと　Prefered の西川君　RNAi の山田君　の検索好きが取り組みました.

=共用スパコンの義務履行　Open System Project= 
 * 立案
 * 実績