DDBJ公開系

用語定義(フラットファイル) 「フラットファイル」という用語は、本コンテンツの文脈のなかで以下のような複数の意味で用いられています. 今後、整理する予定ですが、本コンテンツの読者は、どの意味で用いられているか注意して読んでいただきたい. 1)フラットファイル「フォーマット」 2)フラットファイルフォーマットで記述された「配列登録票」 3)フラットファイルフォーマットで記述された配列登録票データを1件または複数件格納した「ファイル」

デイリーデータ作成概要

 * DDBJ daily update & release 作成
 * 毎日新たに公開または更新されるデータを、デイリーデータと称します.
 * デイリーデータには、受け付けされた機関によって以下の種類があります.
 * DDBJで受付・査定・登録された配列登録票(JPO/KIPOの特許配列登録票を含む):J-DDBJ
 * GenBankで公開された配列登録票
 * EMBLで公開された配列登録票
 * それぞれをDDBJ由来データ、GenBank由来データ、EMBL由来データということがあります.
 * J-DDBJはDDBJ事業報告およびDDBJ事業報告においてDDBJ形式のフラットファイルとして作成されます.
 * Qulaity valueファイルがフラットファイルとともに作成されます.
 * Live/Suppressed/Killed listもフラットファイルとともに作成されます.
 * GenBank及びEMBLで公開された配列登録票は、データ公開システムにおいて、DDBJフラットファイルに変換します.
 * フラットファイル形式以外の各種形式への変換を行います.

GenBank由来データのDDBJフラットファイル作成

 * GenBankのCollab-FTPサイトから、新しく公開されたデータを取得します.
 * GenBankのCollab-FTPサイトから、Live/suppressed/killed listを取得します.
 * GenBankフラットファイル形式のデータを、DDBJフラットファイル形式に変換します.
 * Live/suppressed/killed listにしたがって、公開一時停止/公開中止処理を行います.

EMBL由来データのDDBJフラットファイル作成

 * EMBLのCollab-FTPサイトから、新しく公開されたデータを取得します.
 * EMBLのCollab-FTPサイトから、Live/suppressed/killed listを取得します.
 * EMBLフラットファイル形式のデータを、DDBJフラットファイル形式に変換します.
 * Live/suppressed/killed listにしたがって、公開一時停止/公開中止処理を行います.

各種形式ファイルの作成

 * DDBJ/GenBank/EMBL由来のすべてのDDBJ形式フラットファイルから、以下の4種類のデータ形式ファイルを作成します.
 * 作成したDDBJフラットファイル形式から、以下のデータ形式ファイルを作成します.
 * FASTA形式
 * 配列登録票に記述された塩基配列部分を、FASTAフォーマットに変換したもの.
 * CDS形式
 * 配列登録票に記述された塩基配列のうち、CDS部分をFASTAフォーマットに変換したもの.
 * CDS領域が他のエントリを参照している場合、実体の塩基配列を組み立てる.
 * 1件の配列登録票に複数のCDSがあった場合は、CDS毎に1つのFASTAフォーマットとなる.
 * INSD-XML形式
 * INSDCで定めたXMLフォーマットに変換したもの.
 * DAD形式
 * 配列登録票に記述されたCDS部分の塩基配列をアミノ酸配列に翻訳したもの.
 * CDS領域が他のエントリを参照している場合、実体の塩基配列を組み立ててアミノ酸配列に翻訳する.
 * 1件の配列票に複数のCDSがあった場合は、CDS毎に異なるアクセッション番号(枝番形式)が付与される.
 * また、以下のファイルを作成します.
 * Q-value
 * 配列登録票に記述された塩基配列に対応した、品質データ(quality value).
 * Live/suppressed/killed list

三極データ交換用データ提供

 * デイリーデータとして作成した以下のファイルを、DDBJのCollab-FTPサイトに配置します.
 * DDBJフラットファイル形式
 * FASTA形式
 * CDS形式
 * INSD-XML形式
 * DAD形式
 * Live/Suppressed/Killed List
 * GenBank/EMBLはDDBJのCollab-FTPサイトから随時ファイルをダウンロードします.
 * Collab-FTPサイトはGenBank/EMBLとの連携にのみ用い、一般への公開はしません.

リリースデータ作成概要

 * DDBJでは通常3月/6月/9月/12月の年4回、リリースデータを作成し、公開します.
 * リリースデータ作成の流れは、デイリーデータ作成と概ね同様ですが、全データを対象とすることの他に、特に、以下の部分が異なります.
 * デイリーデータに含まれない変更を、一括変換処理(レトロフィット)として行うことがあります. 一括変換処理が必要となる場合として以下のような例があります.
 * フラットファイル形式(データ項目)の変更に対応するため、過去のデータを含めて変更する場合.

DDBJ由来データのDDBJフラットファイル作成

 * DDBJ由来の全公開データを、データベースからDDBJフラットファイル形式で取り出します.
 * DDBJで登録・公開したJPO/KIPOからの特許データを含みます.
 * 必要に応じて一括変換処理(レトロフィット)を行います.

GenBank由来データのDDBJフラットファイル作成

 * GenBankのFTPサイトから、最新のリリースデータと、最新リリース以降のデイリーデータを取得します.
 * GenBankのリリースデータは、ミラーサイトから取得しています.
 * GenBankフラットファイル形式のデータを、DDBJフラットファイル形式に変換します.
 * GenBankのCollab-FTPサイトから取得した、Live/suppressed/killed listにしたがって、公開一時停止/公開中止処理を行います.
 * 必要に応じて一括変換処理(レトロフィット)を行います.

EMBL由来データのDDBJフラットファイル作成

 * EMBLのFTPサイトから、最新のリリースデータと、最新リリース以降のデイリーデータを取得します.
 * EMBLフラットファイル形式のデータを、DDBJフラットファイル形式に変換します.
 * EMBLのCollab-FTPサイトから取得した、Live/suppressed/killed listにしたがって、公開一時停止/公開中止処理を行います.
 * 必要に応じて一括変換処理(レトロフィット)を行います.

各種形式ファイルの作成

 * DDBJ/GenBank/EMBL由来の全データのDDBJフラットファイルを統合し、ディビジョン別に分類、一定ファイルサイズへの分割、ファイル圧縮を行います.
 * DDBJ/GenBank/EMBL由来の全データのDDBJフラットファイルから、以下の4種類のデータ形式ファイルを作成します.
 * FASTA形式
 * 配列登録票に記述された塩基配列部分を、FASTA形式に変換したもの.
 * CDS形式
 * 配列登録票に記述された塩基配列のうち、CDS部分をFASTA形式に変換したもの.
 * CDS領域が他のエントリを参照している場合、実体の塩基配列を組み立てる.
 * 1件の配列登録票に複数のCDSがあった場合は、CDS毎に1つのFASTA形式となる.
 * INSD-XML形式
 * DAD形式
 * 配列登録票に記述されたCDS部分の塩基配列をアミノ酸配列に翻訳したもの.
 * CDS領域が他のエントリを参照している場合、実体の塩基配列を組み立てて、アミノ酸配列に翻訳する.
 * 1件の配列登録票に複数のCDSがあった場合は、CDS毎に異なるアクセッション番号(枝番形式)が付与される.
 * 全体のフォーマットは、DDBJフラットファイル形式に似ている.
 * また、以下のファイルを作成します. これらはリリースには含まれませんが、リリースデータ作成のタイミングで作成します.
 * patentファイル
 * JPO/KIPOから登録された特許配列登録票のうち、アミノ酸配列に関する特許配列登録票だけを抽出したもの.
 * 16S rRNAファイル
 * 配列登録票から16S ribosomal RNA配列データだけを抽出し、FASTAフォーマットに変換したもの.

リリースノート/統計情報の作成

 * 各種の統計情報を集計・作成します.
 * アクセッション番号リスト
 * エントリ数/塩基数/ファイルサイズ
 * バンク別/ディビジョン別/生物種別
 * 掲載ジャーナルランキング など
 * リリースノートを作成します. リリースノートには統計情報を含みます.

大量登録データ作成(不定期処理)

 * WGS(Whole Genomeshotgun data)やMGA(Mass sequence for Genome Annotation data)のような大量登録データを、登録依頼に基づいて随時(不定期)登録します.
 * DDBJ由来の大量登録データは「DDBJ配列票登録の受付」と同様に、DDBJ形式のフラットファイルとして作成されます.
 * GenBank及びEMBL由来の大量登録データは、公開FTPサイトから取得し、データ公開システムにおいて、DDBJ形式フラットファイルに変換します.

デイリーデータ公開

 * デイリーデータとして作成した以下のファイルを、AnonymousFTPサイトに配置し、公開します.
 * DDBJ/GenBank/EMBLで登録されたすべての新規・更新データを配置します.
 * DDBJフラットファイル形式
 * FASTA形式
 * CDS形式
 * INSD-XML形式
 * DAD形式
 * 最新リリース後のデイリーデータを、日単位でファイルを追加します.
 * 新しいリリースが公開されたら、それまでのデイリーデータファイルはAnonymousFTPサイトから削除します.
 * バックアップは保管していますが、一般には公開していません.
 * 最新リリース以降のデイリーデータから、更新された古いバージョン/リビジョンのデータを取り除いたファイルを作成し、公開します.
 * non-redundantファイル

2007年はディレクトリ配置が異なるため集計対象外としました.

リリースデータ公開

 * リリースデータとして作成した以下のファイルを、AnonymousFTPサイトに配置し、公開します.
 * DDBJ/GenBank/EMBLで登録されたすべてのデータを対象とします.
 * DDBJフラットファイル形式
 * FASTA形式
 * CDS形式
 * INSD-XML形式
 * DAD形式
 * リリースノート
 * 新しいリリースの公開にあたって、古いリリースファイルはAnonymousFTPサイトから削除します.
 * バックアップは保管していますが、一般には公開していません.

2007年はディレクトリ配置が異なるため集計対象外としました.

大量登録データ公開

 * 大量登録データを随時、AnonymousFTPサイトに配置し、公開します.
 * WGS : Whole Genome Shotgun data
 * MGA : Mass sequence for Genome Annotation data
 * genomes : Completed genome data
 * mass : Repository for large data files supplementarily provided by DDBJ
 * fis : Full insert sequence data of the daily updates

その他のデータ公開

 * 以下のデータをAnonymousFTPサイトに配置し、公開します.
 * patent
 * 16S rRNA

ミラーデータベース公開

 * ライフサイエンス分野の著名なデータベース約20種をミラー公開しています.
 * オリジナルサイトの更新にあわせて随時更新します.

アクセッションNoによる検索(getentry)

 * アクセッション番号による検索サービスを提供します.
 * アクセッション番号以外にも、いくつかの検索機能をもっています.
 * 検索対象データベースは以下から選択可能です. 同時に複数のデータベースを選択することはできません.
 * DNA DB : DDBJ
 * Protein DB : UniProt/PDB/DAD/PRF/Patent(protein)
 * DDBJ、DADはデイリーにデータ更新を行います.
 * それ以外のデータベースは、オリジナルサイトの更新に伴って随時更新します.
 * 検索キーは以下から選択可能です.
 * アクセッション番号/バージョン番号
 * ローカス名/遺伝子名/プロダクト名/クローン名/プロテインID/特許番号
 * 検索キーはいずれか一つのみで、AND/OR/NOTを組み合わせた複合条件検索はできません.
 * 検索キーとして、範囲指定が可能です.
 * 検索結果の出力形式は以下から選択可能です.
 * フラットファイル形式/INSD-XML形式/全塩基配列FASTA形式/CDS塩基配列FASTA形式/CDSアミノ酸配列FASTA形式/QualityValue
 * INSD-XML形式/各種のFASTA形式は、出力時にon the flyで作成して出力します.
 * デフォルト形式/アミノ酸配列FASTA形式/塩基配列FASTA形式
 * 各種のFASTA形式は、出力時にon the flyで作成して出力します.
 * 検索対象データベース/検索キー/検索結果出力形式の組み合わせには制約があります.
 * 検索結果の取得方法として、WEB画面表示/メール送信/FTPファイル転送が選択可能です.

キーワード検索(ARSA)

 * キーワード検索、全文検索による検索サービスを提供します.
 * 検索対象データベースは以下から選択可能です. 複数のデータベースを同時に選択することも可能です.
 * DDBJ
 * DAD/PRF/UniProt/IMGT
 * PROSITE/PFAM
 * PDB 他
 * コンピュータ資源の制約により、EST/GSS/WGS/MGAは相同性検索の対象外です.
 * DDBJ、DADはデイリーにデータ更新を行います.
 * それ以外のデータベースは、オリジナルサイトの更新に伴って随時更新します.
 * 検索キーは任意のデータ項目または全文検索が可能です. 検索キーとしてAND/OR/NOTを組み合わせた複合条件検索が可能です.
 * 検索結果の出力形式は以下から選択可能です.
 * フラットファイル形式/XML形式/FASTA形式
 * アクセッション番号リスト(TSV形式)
 * 検索対象データベース/検索キー/検索結果出力形式の組み合わせは制約があります.
 * 検索結果の取得方法として、WEB画面表示/メール送信/FTPファイル転送が選択可能です.

相同性検索

 * BLAST2による相同性検索検索サービスを提供します.
 * 検索対象データベースは以下から選択可能です. DDBJデータについてはディビジョン単位での選択も可能です.
 * DDBJ全データ/新着データのみ
 * EPD/16S rRNA
 * DAD/PRF/PDB/UniProt/C.elegans全蛋白
 * 特許データ
 * コンピュータ資源の制約により、WGS/MGAは相同性検索の対象外です.
 * DDBJ、DADはデイリーにデータ更新を行います.
 * それ以外のデータベースは、オリジナルサイトの更新に伴って随時更新します.
 * BLASTプログラムは以下から選択可能です.
 * blastn/blastx/tblastx/tblastp/tblastn
 * 検索対象データベースによって利用できるBLASTプログラムに制約があります.
 * 検索結果の取得方法として、WEB画面表示/メール送信が選択可能です.

その他の検索

 * TAXONOMYデータベース検索サービス(TXSearch)
 * 生物分類データベース(Taxonomy database)を検索するサービスを提供します.
 * ベクタースクリーニングサービス(Vector Screening System)
 * ベクター由来の部分配列を検索するサービスを提供します.

ClustalW

 * 塩基配列・アミノ酸配列の多重整列と系統樹作成サービスを提供します.

二次データベース

 * DDBJのデータベースをもとに解析した二次データベースの公開サービスを提供します.
 * GIB
 * 真正細菌・古細菌・真核生物ゲノムの統合検索
 * GIB-V
 * ウィルスゲノムの統合検索
 * GTPS
 * 共通プロトコルに基づくバクテリアゲノムの再アノテーション
 * GTOP
 * ゲノム配列からタンパク質の構造へ

WebAPIサービス

 * WebAPI(Web Application Programming Interface)は、利用者のコンピュータ上のアプリケーションプログラムから、遠隔サーバ上のサービスを利用するためのインターフェースです.
 * WebAPIサービスとして、SOAPとRESTの二種類のプロトコルを提供しています.
 * WebAPIで利用可能な検索・解析サービスは以下の通りです.
 * DDBJが提供するGUI検索・解析サービスに対応したAPI
 * DDBJ : DDBJを対象にしたエントリ取得システム
 * GetEntry : DDBJなどを対象にしたアクセッション番号等によるエントリ検索・取得システム
 * ARSA : DDBJで開発された20種類以上のデータベースを対象にしたキーワード検索システム
 * Blast : NCBIで開発された生物の配列において配列類似性を検索するシステム
 * VecScreen : ベクター由来の部分配列を検索するシステム
 * TxSearch : 生物分類データベースを検索するシステム
 * ClustalW : EBIで開発されたマルチプルアライメントシステム
 * DDBJの二次データベースに対応したAPI
 * GIB : DDBJから微生物ゲノムを抽出し整理したデータベース
 * GTOP : さまざまなゲノムプロジェクトで確認されたアミノ酸配列に対して解析結果をまとめたデータベース
 * GTPS : 微生物ゲノムデータに対して解析を行いORFの再アノテーションを行ったデータベース
 * GIBV : DDBJからウィルスゲノムを抽出し整理したデータベース
 * GIBIS : DDBJの挿入配列に注目し整理したデータベース
 * その他の検索・解析API