DDBJ構築系

=J-DDBJ構築システム=


 * INSDデータのうちでDDBJが著者からうけつけ編集改変について責任を持つ部分ということで便宜的にJ-DDBJと呼びます.
 * これに対し他局からのデータと加算した全INSDをDDBJ形式にしたものを便宜的にW-DDBJと呼びます.


 * 構築システムはJ-DDBJを作るシステムのことです
 * 構築システムはJ-DDBJ専用のリレーショナルＤＢ　PostgreSQL-DDBJ を中心に入れ出し修飾選択のインターフェイスプログラムで出来ています.


 * ライフサイエンスの進展にともないICMで決められるソース情報や注釈記載の変更を反映するためにJ-DDBJの構築システムは常に改変修飾をうけています.

核酸配列データの収集、登録受付のためのシステム

 * 現在DDBJでは、研究者の方々からの核酸配列のデータ登録を受け付けるのに、SAKURAとMSSとの２つの口があります.
 * 従来はSequinによるデータ作成という３つ目の入り口がありましたが、使用される頻度も非常に低いため、2011年1月に受付を停止しました.

SAKURA

 * SAKURAは、著者研究者に自身でウェブフォームに書き込んでもらう仕組みです.
 * FT-docに書かれた記入規則の表現です.
 * 入力可能な選択肢を自動的に絞り込んだり、生物種を画面上で選択したりと言った、入力の支援の仕組みを持っています.
 * ウェブからの入力のため、基本的には数十件程度までの比較的少量の核酸配列データの登録向けのサービスです.
 * 登録されたデータは、自動的にバリデーションされ、保管・管理のためのデータベースに格納されます.

MSS(Mass Submission System)

 * MSSは、著者からプロジェクトでまとめた配列とプロジェクトに共通の解説を、ファイルに記入して送っていただく形でのデータ登録の仕組みです.
 * 全自動ではありませんので数十以上の配列票を同時に登録する方に限ってお使いいただきます.
 * 原則的には必ずDDBJの査定担当者による電子メールや電話等でのコンサルテーションを受けて頂き、それからデータをFTP等の手段で送っていただくことになります. このコンサルテーションには、データ記述方法といった内容のほか、必要に応じて、コンピュータやネットワーク等の技術的な側面の支援も含まれます. 受領したデータファイルは、まずは査定担当者による内容の１次査定を受け、合格後にデータベースに格納されます.
 * MSSは、こうした形でのデータ登録受付フローを行うための、プログラムの集合体の総称でもあります. *これには、データファイルに対する機械チェックや編集支援のためのプログラム類の他、著者研究者とのやり取りを管理するなど作業支援の仕組み等も含みます.
 * データファイルを著者研究者の側で作成して頂くので、データの形式や内容のチェックツールなど、データ作成支援のためのツール類を著者研究者の方々へもご提供しています.

新データ登録受付システム

 * DDBJでは、さらにデータ登録を容易かつ効率的にするために、新たな登録受付の仕組みの開発を進めています.

J-DDBJ構築管理用リレーショナルDB PostgreSQL-DDBJ

 * SAKURAやMSSで受け付けた核酸配列データは、内部アクセス（閲覧修飾書き出し）だけを許すデータベースに格納されます.
 * この時点で、それぞれの配列登録票データには固有のアクセッション番号が発行されます.
 * アクセッション番号はINSDのデータベース中で一意に特定の配列登録票を指し示す識別番号で、著者研究者にも通知されて、多くの場合は論文等に記載される重要な番号です.
 * PostgreSQL-DDBJには、配列登録票に字際されない登録した著者研究者の電話番号や、NCBIで構築されている生物種データベースへの参照情報、査定に関する履歴情報なども一緒に記録されており、査定作業や調査統計等にも使用されています.
 * 登録される配列登録票の多くは、著者研究者の希望で、通常指定日まで公開せずに秘匿しています.
 * PostgreSQL-DDBJの機能には、指定公開日が近づいたことを自動的に電子メールで通知するための仕組みや、公開にあたって査定済みになっているかをチェックして警告を出すような仕組みなど、様々な機能が存在しています.

一般公開に必要なデータ品質を維持する査定作業のためのシステム
以下に代表的なカテゴリとシステム名を挙げます.
 * データベースに格納されたデータは、原則としてどの登録も、DDBJの担当者の査定を受けます.
 * DDBJでは、査定作業に使用するためのプログラムを多数開発し、使用しています. 多数のデータを対象に一括して編集やチェックを行うものや、逆に少量のデータを画面上に表示し、担当者による詳細な査定作業を行う環境を提供するものなど、様々です.
 * 査定作業支援
 * 1) TSUNAMI：DDBJの査定作業者の統合作業支援クライアントアプリケーション(Java)です. データベース内のデータを呼び出して内容を確認したり、機械的なチェックを行ったり、編集してデータベースを更新したりする基本機能の他に、多数の査定対象データを複数の査定担当者の間でうまく分担する仕組みや、査定作業の履歴を記録したり、査定中のデータの著者研究者への電子メールを作成し証拠として保存したりというような、スムーズな査定作業を支援する機能も持っています.
 * 2) 非公開データ用相同性検索システム：公開前のデータに対して相同性検索(BLAST)を行う、査定担当者が使用する検索サービスです.
 * 3) 大量登録履歴管理システム：
 * 4) 非公開データ警告システム
 * 5) 公開予定通知システム：データベース内のデータのうち、公開予定1ヶ月前に迫ったデータを対象に、登録者へ公開予定である旨のメール通知を自動で行うシステムです.
 * 6) 作業中データ通知システム：査定作業中のデータをリストアップして通知する仕組みです.
 * 7) 電子メール記録システム：査定担当者と登録者間でのメールのやりとりを記録するシステムです.
 * 8) TPAデータチェックシステム
 * 自動データ更新、整理
 * 1) Taxonomyデータ更新システム：NCBIから生物種データベースを取り込んで、既存のデータとの関連付けの整合性を取り直す仕組みです.
 * 2) Secondaryデータ更新システム
 * 3) 不要レコード削除システム
 * INSDCの三極間での連携支援
 * 1) ライブ／サプレス／キルリスト作成システム：一度公開した核酸配列データを再度非公開化する場合の通知の仕組みなどです.
 * 2) 削除データ通知システム
 * 3) Projectデータベース

一般公開用にデータを準備するシステム

 * 査定作業が完了し、また公開期日が到来したデータは、一般公開のためにデータベースから出力されます. この段階でも、DDBJの計算機上では様々な処理を行うシステムが働いています.
 * 日中、査定が完了して公開を指示された核酸配列データは、夜間に自動的に稼働するシステムによって公開処理されます. 基本の処理は比較的単純です. データの内容にエラーがないか、公開期日を本当に過ぎているか、等の最終チェックの後、データベースからデータを読み出し、DDBJのフラットファイルの形式に出力して、公開したという記録をデータベースに書き込みます.
 * とはいえ、処理には他にも、付随的な部分が多数あります.
 * 例えば、INSDCの核酸配列データは、同じアクセッション番号でも配列自体が更新されることがありますが、同一の配列データを一意に特定できるようにするために、公開された核酸配列データは全て厳密にバージョン管理されています. 前回公開時との配列の同一性を確認し、必要な場合には新しいバージョン番号を発行するのも、この時の処理の一部です.
 * こうして出力されたフラットファイルは、INSDC他極の収集したデータや、日本および韓国の特許庁から受領したデータ等と合わせ、全体をW-DDBJとして編纂した上で、公開系システムに引き渡されます.