運用仕様書2012

=ＤＤＢＪ構築・公開システム運用支援仕様書= Specification for assisting DDBJ operation

平成23年12月 情報・システム研究機構 国立遺伝学研究所

１．名称
ＤＤＢＪ構築・公開システム運用支援仕様書

2．目的

 * DDBJ(DNA Data Bank of Japan )は、国立遺伝学研究所（遺伝研）内の組織であり、学術論文や特許公報等を通じて公知にされるすべてのDNA配列を網羅し、世界の公共財として継続的にひとつのデータベース『INSD 国際塩基配列データベース』にまとめ維持管理する国際学術事業をその使命としている.
 * また同事業は欧州のEBI/EMBLおよび米国のNCBI/GenBankと分担および相互協力体制（3極体制）で1987年より行われており、事業内容は遺伝研によって委託をうけたDNAデータ利用委員会およびEBI,NCBI,DDBJにより委託をうけた外部委員会である国際諮問委員会によって監督されている.
 * 本件は、これまで構築された既存のシステムの維持運用により、DDBJ事業に対しシステム面からの支援を提供するものである.


 * 具体的にはDDBJ事業とは、
 * （１）データ登録公開希望者の要請をうけ、DNA配列データおよびメタデータと注釈データ(アノテーション）を3極体制で定められる所定の様式で記載し「登録票」を作成することを援助し、登録票番号を発行し、その指定公開日までDDBJ内で保管すること. （データ登録査定事業）
 * （２）指定公開日を迎えた登録データは定常的なデータ交換によってDDBJに加えて欧州のEBI/EMBLおよび米国のNCBI/GenBankから同時に公開し、またGenBankおよびEMBL内で保管され公開日を迎えたデータも同様に公開すること（データ交換事業）
 * （３）登録後も登録者からの登録内容の修正、付加を受けつけて既存の配列票を更新すること（データ更新事業）
 * （４）データ公開後は世界中でその１次的、２次的利用を促進するためにデータの容易なダウンロード、検索閲覧、を可能にすること（データ提供事業）

の４つを事業を柱としている.

３．背景

 * DDBJは、国立遺伝学研究所 生命情報・DDBJ研究センター (Center for Information Biology and DNA Data Bank of Japan; CIB/DDBJ) 内で運営されている. このCIB/DDBJは、発展しつつある生命情報学のわが国における研究拠点として、1995年4月に設立され遺伝研スーパーコンピューターシステムの運用とDDBJの運営を事業の柱としている. DDBJの歴史
 * 生命科学は過去30年間記述の客観性と定量性を高めることで基礎科学的理解と実社会への応用を進めてきたが、この客観性および定量性は分子生物学的手法によるDNAおよびRNA分子の配列決定に依るところが大きく、その実践で必要なコンピュータを用いた客観データや量的データの統計的解析やその他の情報処理はバイオインフォーマティックスと呼ばれる分野を形成するに至った. 　そのような生命科学においてDNA配列とその機能的注釈からなるDDBJデータは過去の研究の証拠としてのみならず基礎研究、応用研究の区別なく多くの研究計画や仮説形成に利用される極めて重要な研究資源の一つである.
 * DNA配列決定を中心とする研究の規模は80年台の分子クローニング時代には一遺伝子一教授といわれたが90年代の世界協力による標準ヒトゲノム配列の決定を経て、2000年以降は一研究で一生物種の全ゲノム配列や多くの組織細胞の遺伝子発現の定量的分析を行うようになり、現在は個々の疾患患者や健康人の全ゲノム配列の決定や土壌、海洋、腸内などの環境中の生物集合を含有DNA配列集合として記述するに至っている. このように世界中で決定されるDNA配列量は過去30年間加速度的に増加してきたが特に過去5年間では生データレベルでその増加はほぼ1000倍と見積もられており、DDBJに登録されるデータ量も比例的に増加し、現在１億4000万件を超える配列票と、数万件におよぶ数十Giga byteの生データの登録を管理提供している.
 * 日々増大を続ける膨大巨大なデータを授受し加工管理し検索提供するDDBJ事業は巨大データを扱う高度な情報処理技術や計算資源への依存度を年々高めているが、幸い来年度の遺伝研スパコンの更新において十分に事業に対応可能な計算資源とその運用を調達したところである.


 * DDBJ事業では、その成果物であるデータ自体(DDBJ/EMBL/GenBank, INSD)は世界の述べ数十万人のデータ登録者からの寄託の集積であり、データの全体について誰も占有権を主張しえないという歴史的な特徴を持つ. そのため、直接的利用のみならずその下流で多くの学術や商用の情報サービスの材料として有効に再利用されている. この特徴は理想的な科学公共財の構築と維持のモデル事業として科学分野で言及されることが常であり、近年特に重要視されるデータ中心科学におけるデータ共有運動においても先導的にふるまうことを期待され一層社会的にも重要度を増している.

4.1 以下の登録受付・査定システムの運用・維持と管理を行う
DDBJで作成する配列票データのうちDDBJが登録受付査定公開を行ったものをj-DDBJ、他の2極を経てDDBJに送られたものを加えたデータをw-DDBJと便宜的に区別する.

4.1.1 登録受付システム
Web formによる各種データの受付システム（SAKURA, MSS, 新SAKURA,による配列票の登録と D-wayによるDRAメタデータ,Bioprojec,登録） および管理アカウントにファイル転送するシステム(MSS, DRAランデータ登録)を対象とする. また特許庁および韓国特許庁データの整形機関であるKOBICからの登録はファイル転送等の方法で適宜対応する.

4.1.2 査定システム TSUNAMI および　Submission Manager (MSM+Dway)
TUNAMIとはSAKURA, MSS, 新SAKURA経由でDDBJに登録された配列票データ(j-DDBJ)とその付随情報を記録保管しアノテーターによる査定修正の支援と履歴の管理を行うためのRDB(PostGresDB). Mass submission manager は大量配列票登録のマネージ　Submission Managerとは D-wayによる登録の査定管理システム(Postgres).

4.2.1　daily-w-DDBJ 作成システム
daily-w-DDBJとは毎日作成する世界中の新規公開データをDDBJ形式の配列票に書き直し整形したもの. TSUNAMIで管理され公開日を迎えた配列票(daily-j-DDBJ)とdaily-GenBank, daily-EMBLから選択したdaily-us-GenBank, daily-eu-EMBL,および特許庁から送付されるJPOファイルKPOファイルをDDBJ形式の配列票として書き下したテキストデータを連結して一つのファイル(daily-w-DDBJ) としてデータ交換や公開に用いる.

4.2.2　 release-w-DDBJ 作成システム
年間４回過去のすべての登録票をすべて足し合わせたDIVISION別ファイル(w-DDBJ-release)を作成する

4.2.3　 SRAファイル　作成
DDBJに登録された次世代シーケンサー由来の生データをSRA-toolkit(NCBI製)を用いてFastQとSRA-lite形式に変換する

4.3.1　日々データ交換
GenBank, EMBL との間でdaily-w-DDBJおよびrelease-w-DDBJ, EMBL, GenBankを交換する.

4.3.2 生データ交換
次世代シーケンサー由来の生データおよびメタデータ, BioprojectデータをGenBank, EMBLと交換する

4.4.1 ACC history DB of w-DDBJ
DDBJが作成公開したすべての配列票およびBioproject等すべてのレコードのバージョンの履歴管理と検索公開用データベース. BerkleyDB.

4.4.2 KeyWord search system of w-DDBJ
Apache solr 全配列票データのキーワード検索システム

4.4.3 anonymous ftp site
DDBJで公開されるデータを日々整理提供する

4.4.4 Taxonomy data 公開システム
NCBIで日々更新される生物種データベースはDDBJデータの作成および利用で使用頻度が高いのでその取り込みと内部および外部利用系への反映を行う.

4.5 事業用情報共有管理システムの維持と管理を行う
既存の業務者用情報共有管理システムの維持管理を行う

4.6 事業システム稼働情報提供
業務システム改善やリソース配分の最適化を目的に上記のシステム運用の作業量および処理データ量に関する量的、質的な記録を常に行い、月一回程度の分析報告と事業者全体での共有を行うこと. その方法に関してはDDBJスタッフと適宜検討し対応すること.

4.7 システム改善のための調査・考察と提案
長期にわたって築かれてきた既存のシステムは理想的なものとはいえず、システムの不完全さによる誤操作誘導や登録傾向変動による負荷分布変動や不可避の例外処理が必ず出現する. またDDBJ事業は一定の予算下で量的増大と質的向上を求められていることから既存のシステムは常に見直しを行い簡素化による維持運用負担の軽減が必要である. このようなシステムの顕在的潜在的な綻びの検出と改善のための客観的な記録を作成することは本業務の重要な目的の一つである.
 * 個々の作業内容、定常業務および例外処理を要したケースについて作業日単位で簡単な量的質的記録を作成し、その記録に基づいて月単位での作業サマリー文書を作成し担当するDDBJスタッフに文書で報告を提出すること.
 * 既存のシステムは常に陳腐化することを意識し維持容易なオープンソースプログラムや商業システムなど外部技術動向の把握に努め簡素化・負荷軽減のためのシステム改変について考察し適宜提案すること.
 * 各種データベースの検索速度やデータの読み込みや書き出し速度等についてはそれぞれについて別途適宜調査報告を行いシステム改善法を提案すること

4.8 注意点
DDBJホームページ等を通じて現在提供されているが登録受付査定公開の範囲外である以下のサービスについてはその維持運用開発を本仕様には含めない. ただしDDBJの配列登録票の様式は毎年の3極での会議で軽微な変更をうけることがある. (See Transition of DDBJ features)その変更をうけた登録、維持、公開系の改変はDDBJスタッフとの相談のうえシステムに修正を加え反映すること. GIB, CIBEX, RDF, およびBLAST, ClustalW, GTPS, DDBJ-Pipeline, MiGAP, DOR その他のDNA解析プログラムを用いたサービス

5. 作業対象システム
国立遺伝学研究所、ＤＤＢＪにおいて、発注者が指定する機材とする.

6. 作業員に必要な技術および体制
DDBJ事業支援には、DDBJスタッフとの円滑なコミュニケーションに足る分子生物学に関する学部程度の基礎知識と、システム維持運用に必要な配列解析技術を含めた情報処理技術への理解が必要である. 加えて、欧米との3極体制による共同構築を行う必要から、以下の技術および体制が作業員に要求される. （１）作業員は通常の勤務時間内（土曜日、日曜日、国民の休日に関する法律に定める休日、年末年始（12月29日から翌年1月3日まで）およびDDBJ業務維持管理日（5月1日から5月5日まで、8月11日から8月15日まで）を除く）において原則8名以上とし、それぞれ発注者が指定する場所に常駐すること. なお、8名を下回った場合は他の者が下回った該当者の業務を補うものとし、作業報告書にその旨記載すること. また年4回（6, 9, 12, 3月）の定期リリース作成時及びその他必要な場合には、上記勤務時間以外の勤務及び休日出勤が必要となる場合がある. （２）全ての作業員は、バイオ系情報処理業務の経験を有し、本仕様書に示した業務を円滑に遂行できる能力を有すること（本仕様書で使用されている用語についての知識は必須である）. また、4名以上はバイオ系情報処理業務において3年以上の経験者とし、経験者の3人以上が常時他を指導できる体制であること. （３）全ての作業員はコンピュータソフトウェア技術者であり、その内6名以上の者は情報処理技術者資格を有すること. （４）バイオ系研究者および開発者との協力体制を密に行うため、バイオ系学士または相当の知識のある作業者が最低1名はいること. （５）作業員全てがC++言語もしくはJava言語によるシステム開発経験をもつこと. （６）次に挙げるシステムそれぞれについて、最低1名以上が開発経験をもつこと. ・RDBシステム・UNIX系OS上でのサーバアプリケーション・Windows系OS上でのGUIアプリケーション （７）全ての作業員は、英文の参考文献、マニュアル等を十分理解できる程度の読解力を有すること. DNAデータベース運用支援業務においては、英文学術論文の調査が必要であるため、そのうち1名以上は、DNA関連英文学術論文を十分理解できる程度の専門英語読解力を有すること.

７．作業場所

静岡県三島市谷田１１１１ 大学共同利用機関法人　情報・システム研究機構 国立遺伝学研究所　生命情報・ＤＤＢＪ研究センター 日本ＤＮＡデータバンク（ＤＤＢＪ）

8. 請負の内容

（１）	発注者が必要とする、ＤＤＢＪ構築・公開システム運用支援業務を請負業者に前項作業場所において請負わせるものとする. （２）	請負業務の時間帯は、土曜日、日曜日、国民の休日に関する法律に定める休日、年末年始（12月29日から翌年1月3日まで）およびDDBJ業務維持管理日（5月1日から5月5日まで、8月11日から8月15日まで）を除き、おおよそ月曜日から金曜日までの午前９時から午後６時までとする. ただし、年４回（６、９、１２、３月）行っている定期リリース作成時及びその他必要な場合には、上記勤務時間以外の勤務及び休日出勤が必要となる場合がある.

9. 請負業務内容の詳細
本調達は主に既存のシステムの運用に関するものであり、運用対象や取扱いデータの内容は多岐に及び専門性も高い. そのために完全な詳細内容の記載は困難であるが　不明な点は適宜 でその詳細を確認することができる.
 * 1) ホームページ(http://www.ddbj.nig.ac.jp/)および
 * 2) DDBJ事業報告(http://goo.gl/mfmHn)n
 * 3) 情報共有サイト(http://goo.gl/2Q5Wa)

10. 作業記録および報告
4.7に基づいて作業を記録し報告を行う. その様式については要件を満たすと考えられ、作業者の負荷にならない様式を提案すること.

11. 厳守事項
（１）	常駐所内における盗難防止及び火元確認その他施設の安全管理、整理整頓及び清掃を責任をもって行い、発注者が貸与するものについては、十分な注意を払って良好な管理をすること. また、発注者の指示に従うこと. （２）	請負者及び作業従事者は、業務上知りえた一切を他に漏らしてはならない. また、他の目的に利用してはならない.

12. 技術的要件の概要 （１）	本仕様書に示す要件はすべて必須の要求要件である. （２）	必須の要求要件は本研究所が必要とする最低限の要求要件を示しており、提案内容が本仕様書を満たしていないとの判断がなされた場合には、不合格となり、落札決定の対象から除外する. （３）	提案内容が本仕様書を満たしているか否か判断は、本研究所技術審査職員において、提案内容を含む入札説明書で求める提出資料の内容を審査して行う.

13. 履行期間 履行期間は、平成２４年４月１日から平成２５年３月３１日とする.

14. 監督職員 　監督職員は、本研究所の経理責任者が監督を委任した職員が行うものとする.

15. 提案に関する留意事項 （１）	提案に関しては、提案内容が本仕様書の要求要件をどのように満たすか、あるいはどのように実現するのかを要求要件ごとに具体的かつわかりやすく、資料等を添付する等して説明すること. 従って、審査するに当たって提案の根拠が不明確、説明が不十分で技術審査に重大な支障があると本研究所技術審査職員が判断した場合は、要求要件を満たしていないものとみなす. （２）	提案用紙はA4縦型で横書き左綴じとする. 特に印刷製本する必要はないが、手書きが含まれる場合には読みやすい体裁にすること. （３）	提案された内容等について、問い合わせやヒヤリングを行うことがある. （４）	提案資料等に関する照会先を明記すること.