DDBJに出入りするデータとその管理

How to make releases | DDBJの登録以外のサービス 　| DDBJの新型配列事業 | DDBJ daily update & release 作成| 運用仕様書2012 |DDBJ公開系 | 2010年度 DDBJ事業報告

=SUBMIT: サブミッターからDDBJに入るデータ=
 * non-DRA年次統計　http://www.ddbj.nig.ac.jp/breakdown_stats/sakuratpamss-e.html
 * DRA これまでの登録回数は523submission (2008:23, 2009:73, 2010:253, 2011: 174) うち148 は公開済み13:22, 10 January 2012 (JST)
 * Whole world では58000　submission あり
 * Microarrrays (CIBEX) は別に運用する 発現データ登録

DDBJに送られる配列票構成データ
登録受付ログ
 * 歴史的にこの読める形に成形するExample of DDBJ entry (配列票)
 * 原則的にDNA断片一つについて１枚の配列票を作り、ユニークID "ACCESSION_ID"を発行しています. ACCESSION ID TIPS
 * WebForm-SAKURAへのタイプイン出力ファイル: ann, fasta, sakura-log
 * メイルの添付登録: ann, fasta,
 * 登録用アカウントへのアップロード: ann, fasta,
 * WGS(transitive), TPA(secondary), MGA(RIKEN CAGE, artifact)(release に入らない連中）

生（新型）データ(メタデータ　ランデータ）は登録用アカウントにアップロードする

 * meta data:MetaDefineを使って Submission、Study、Sample、Experiment、Run、Analysis (任意) を登録し関連付けを行いXML形式でアップロード保存する
 * Run data を登録用アカウントに転送する：公開鍵で暗号化している. 　ログインしてコマンドライン
 * BioProjectの登録：登録用アカウントにあげる
 * 公開鍵発行はどうしてここだけあるのか？　NCBIでは限定利用の個人ゲノムのSRA登録も行うので同じようにした. DDBjではいまだなし.

http://trace.ddbj.nig.ac.jp/files/manual/DRA_submission_manual.pdf
 * 登録確認は DDBJ submission manager

データ受け入れ支援管理システム

 * WebForn　による導入はブランク提示、ボキャブラリのコントロール、最も近い記入の例示、j-parserによる形式規則違反の指摘 >> 開発仕様書を添付してくれ！
 * メイルでのやりとりは業務管理システムMailDealerを利用
 * ファイルのやり取りはアカウント発行とウエブオンラインストレージ利用
 * TSUNAMIによる業務管理（登録者、担当、公開日, など）　と　mass submission manager による管理

注釈管理

 * Webformで受け入れRDBに入った（必要あるか？）登録票を査定者が査定して記入内容や表現法についてメイルで連絡する.
 * 連絡指導の内容は内部で確認可能（確認の要あり）
 * Webformに記入されたcontact mail address を使ってコレスポンデンスと登録票は関係づけておきたい. (現在はRDBで）

=DDBJから登録者にする連絡=

TSUNAMIで行う

 * 論文が出版され著者が連絡を忘れた場合は論文中のアクセッション番号の配列票を読者が閲覧取得できません.
 * NCBIでは不明の方法で常に論文中のアクセッション番号を監視しています.
 * DDBJ公開分の新規アクセッション番号を見つけるとDDBJの担当に連絡をしてくれます.
 * 配列票が未公開の場合には（Release request)公開を進めます
 * 担当アノテーターは連絡にある論文を見てこれを確認します.
 * 同じ論文中にもっと未公開アクセッション番号がないかも探します. そして
 * 1) 配列票の書誌情報に当該論文を書きくわえます. (配列票のアップデート）
 * 2) 著者に公開について連絡します. 了承は必須ではありません.
 * 3) TSUNAMIを使い当該配列票を公開系に進めます.
 * 配列票が公開済みで文献のフィールドにUnpublishedと書かれている場合はこれを当該論文に変更します(Update request)
 * 論文出版前に指定公開日を迎えるとDDBJで公開を進めます.
 * HiRDDBJは指定公開日の10日前を迎えた配列票のリストを表示します.
 * HiRDDBJは自動的に登録者にアラートメイルを出します.
 * 返事(ML)を受けたアノテータは要求に従い指定日を変更します.
 * 変更依頼がない場合と返事がない場合には公開へ進みます.
 * HiRDDBJは指定公開日を迎えたアクセッション番号リストをはきます.
 * アノテータは査定が済んだものかフラグを確認しまた公開に関する特別の指示の有無を確認します
 * 指示があれば従い、指示がなければHiRDDBJに公開命令を出します.

SRAの公開要求

 * DRAの公開予定日は１年後まで指定でき延長することができます.
 * 公開予定日での公開.
 * ３０日前に登録者にアラートメールを自動送信しています.
 * 登録者は登録システムD-wayにログインし「即日公開、３か月延長、半年延長、１年延長」から１つを選択できます.
 * 予定日になると自動的に公開され、公開されたことが登録者にメールで通知されます.
 * 論文中での引用確認による公開
 * NCBIによる論文中のアクセッション番号の監視、連絡サービスは行われていません.
 * 論文読者などから連絡があった場合、アノテータは連絡にある論文を見てこれを確認します.
 * 1) メタデータに当該論文情報を書きくわえます. (データのアップデート）
 * 2) Managerからデータを公開します. 公開した旨が自動的に登録者にメールで通知されます. 了承は必須ではありません.

BioProjectの公開要求

 * 登録時には「即日公開」か「そのBioProject IDを引用しているDDBJ、DRAデータとの連動公開」の二種類しか指定できません. 公開予定日は指定できません.
 * 非公開のBioProject IDを引用しているDDBJ、DRAデータが公開されるとメールでアノテータに通知されます.
 * アノテータがIDの引用を確認し、Managerから公開します.

=COLAB: NCBI EBIから送られる(とってくる）データ=
 * daily update of GenBank: Flat file. colab ftp site　of Genbank に毎日アップされる
 * daily update of EMBL: Flat file. Colab ftp site of EBI に毎日アップされる
 * Monthly release of GenBank: Flat file
 * suppress list of GenBank: list of accession#. Collab ftp site of GenBank に週一回程度
 * kill list of GenBank:list of accession#
 * live list of GenBank:list of accession#
 * suppress list of EMBL:list of accession#
 * kill list of EMBL:list of accession#


 * Taxonomy DB: 毎日１－３回アップデイトされる　バージョン管理は現在ないのでタイムススタンプ管理が必要


 * '''SRA from NCBI:管理の仕方が不明 週一回aspera client から一般ユーザ同様に取得


 * 公開指示fromGenBankDDBJ-ACC# in Publication list from GenBank: J-DDBJのACC#を含んだ論文をNCBIが見つけて１論文1メイルで送ってくれる. データ公開の大半は　このメイルでキックされる. 年間1200通

=COLAB: JPO から送られるデータ= 特許配列登録公開の手続き
 * monthly submission from JPO: JPO format(EMBL的）, already have ACC#. 専用線でftpsite of JPOから取得
 * 毎月１回の大きなテキストの形式変換作業です.
 * めんどうなのは生物種名の標準化など特許公報のゆるい部分をINSD基準にどこまであわせるか？　限界があります.

=COLAB: KPOから送られるデータ=
 * KOBIC から送られる韓国特許中の配列　　JPO形式様だがKPOファイルからの変換で間違いが見つかることがまだ多い. 記録

=COLAB out: DDBJがGenBank,EBIに渡すデータ=


 * Daily-update of w-DDBJ? or j-DDBJ How to make releases
 * WGS, TPA, （MGAは送らない）of j-DDBJ
 * Release? of w-DDBJ
 * suppress list of j-DDBJ
 * kill list of j-DDBJ


 * Bioproject：j-BioProject 交換のスキーマは？？　交換用のXML(XSD)をつくってcolab-ftpに置く. 　一般公開用は個人情報ぬきのデータを作っておく.
 * '''j-SRA（メタデータ　ランデータ)の交換スキーマは？？

=MANAGE: =

ACC history DB

 * DDBJが公開したファイルを管理する ACC/version のDB 小笠原がデータ構造デザインした　小笠原、森山がコーディング
 * 旧gententryがスパコンベンダーの変更で利用できなくなるので2011に作られたBerkleyDB
 * 生データ（SRA-meta, WGS,　MGA) TPA, も管理に加えないといけない　　BioProjectも
 * すべてw-DDBJ　( W作成時の問題もわかる）
 * input data はdaily update, release, kill list, suppress list,

概念的には下のようです http://farm8.staticflickr.com/7147/6656498473_37063591a3_z.jpg

CONTENT management

 * DDBJが受け取ったファイルの内容を管理する
 * HiRDDBJからPostGresRDB-j-DDBJ
 * ann, fasta,