EMBL由来データの誤変換の調査

方針
1. 以下のようなテーブル(ddbj_data)を作成する.


 * ID列はddbjAC（ACCESSION number）によって一意性を見る.
 * このテーブルは、release 88のEMBL由来のエントリー（ACCESSION numberのprefixがAJ, AL, AM, AN, BN, BX, CR, CT, CU, FM, FN, FO, FP, FQ, FR, HE, HF, HG, V, X, Y, Z）のDDBJ FF形式のデータを格納する.

2. 以下のようなテーブル（embl_data）を作成する.


 * ID列はemblAC（ACCESSION number）によって一意性を見る.
 * このテーブルは、release 88時点（2011年12月5日）でのEMBL由来のエントリー（ACCESSION numberのprefixがAJ, AL, AM, AN, BN, BX, CR, CT, CU, FM, FN, FO, FP, FQ, FR, HE, HF, HG, V, X, Y, Z）のEMBL形式のデータを格納する.

3. 以下のようなテーブル（DDBJ_EMBL_PARSE）を作成する.


 * ID列はACCESSION（ACCESSION number）によって一意性を見る.
 * ddbj_dataのddbjAC列とembl_dataのemblAC列の間で左外部結合を行い、DDBJ release88に存在するエントリーのみを取り出す.

4. 以下のようなテーブル（DDBJ_EMBL_COMPARE）を作成する.


 * ID列はACCESSION（ACCESSION number）によって一意性を見る.

5. 以下のようなテーブル（DDBJ_EMBL_COMPARE_SPLIT）を作成する.


 * ID列はACCESSION（ACCESSION number）によって一意性を見る.

6. 以下のようなテーブル（DDBJ_EMBL_COMPARE_SPLIT_FLAG）を作成する.


 * ID列はACCESSION（ACCESSION number）によって一意性を見る.

ddbj_dataの作成
release88の全エントリーからEMBL由来のエントリーのみを格納したddbj_dataを作成する.

import_ddbj_from_embl.pl

embl_dataの作成
release88時点でのEMBLの全エントリーからEMBL由来のエントリーのみを格納したembl_dataを作成する.

import_embl_ori.pl

ファイルサイズが最大（3441842374）であるrel_std_pro_04_4110.dat.gzを処理すると、それ以降のファイルからのエントリー取り込みが行われなくなってしまったので、このファイルのみ分けておいて最後にこのファイルのみ取り込みを行った.

比較する部分のテキスト取り出し
以下のテーブルの項目について、DDBJ FF形式とEMBL形式の内容が同一かどうか、比較を行う.

そのため、まずこれらの項目の内容を取り出しておく.

parse_entry.pl

エントリー内容の比較
DDBJとEMBLのコンテンツをそれぞれ、アルファベットと数字以外の文字を削除し、アルファベットはすべて小文字に変換して比較を行う. DDBJとEMBLの間に違いがあった場合は、DDBJとEMBLのオリジナルのコンテンツをCOMPAREに格納する.

get_diff6.pl

差異が見られたレコードのみ取り出し、差異の発生箇所ごとに分割する.

split_diff.pl

差異の検出された項目とエントリー数
DDBJとEMBLのコンテンツをそれぞれ、アルファベットと数字以外の文字を削除し、アルファベットはすべて小文字に変換して比較を行った. 括弧に入った数字は、各項目のユニークな内容の数である.

DDBJとEMBLで更新日が一致しないエントリーについては、差異の発生がEMBL側の更新をDDBJ側が反映していないために生じている可能性があり、判断が難しいと思われる.

DEFFINITION
add_flag_definition.pl

DEFINITION/DE行において検出された差異は、25,207エントリー中25,196エントリーが、DDBJ側の末尾に欠落があることによって生じていた. このうち22エントリーはDDBJとEMBLで最終更新日が異なっていた.

下のテーブルで、各分類の左側の数字はエントリー数、右側の数字はDEFINITION項目の内容のユニーク数、括弧に入っている数字は、DDBJとEMBLで更新日が異なっている数である.

例：AJ000172の場合

DDBJ DEFINITION Homo sapiens genomic intron breakpoint sequence of MLL rearrangement,

EMBL DE  Homo sapiens genomic intron breakpoint sequence of MLL rearrangement, 335bp

残る11エントリーについては、以下のようになっていた. これらのエントリーはすべてDDBJとEMBLで最終更新日が異なるため、DDBJ側で最新データが反映されていないために差異が生じている可能性がある. BX677430 definition: DDBJ: Caenorhabditis elegans Other VB0395L. definition: EMBL: Caenorhabditis elegans clone VB0395L

HE582004 definition: DDBJ: Black raspberry necrosis virus partial gene for polyprotein, segment RNA1, isolate FI:Hau1B:09. definition: EMBL: Black raspberry necrosis virus partial gene for polyprotein, segment RNA1, isolate FI:Hau26B:09

HE582005 definition: DDBJ: Black raspberry necrosis virus partial gene for polyprotein, segment RNA2, isolate FI:Hau1B:09. definition: EMBL: Black raspberry necrosis virus partial gene for polyprotein, segment RNA2, isolate FI:Hau26B:09

FQ377876 definition: DDBJ: Zebrafish DNA sequence *** SEQUENCING IN PROGRESS *** from clone ZFOS- 2325D5. definition: EMBL: Zebrafish DNA sequence *** SEQUENCING CANCELLED *** from clone ZFOS-2325D5

FQ976803 definition: DDBJ: Pig DNA sequence *** SEQUENCING IN PROGRESS *** from clone CH242-97H7. definition: EMBL: Pig DNA sequence *** SEQUENCING CANCELLED *** from clone CH242-97H7

FQ976834 definition: DDBJ: Human DNA sequence *** SEQUENCING IN PROGRESS *** from clone ABC8-40299000O9. definition: EMBL: Human DNA sequence *** SEQUENCING CANCELLED *** from clone ABC8-40299000O9

FQ976837 definition: DDBJ: Human DNA sequence *** SEQUENCING IN PROGRESS *** from clone ABC8-42999400L5. definition: EMBL: Human DNA sequence *** SEQUENCING CANCELLED *** from clone ABC8-42999400L5

FQ976845 definition: DDBJ: Mouse DNA sequence *** SEQUENCING IN PROGRESS *** from clone WI1-1261I10. definition: EMBL: Mouse DNA sequence *** SEQUENCING CANCELLED *** from clone WI1-1261I10

FQ976868 definition: DDBJ: Pig DNA sequence *** SEQUENCING IN PROGRESS *** from clone WTSI_1005-72N12. definition: EMBL: Pig DNA sequence *** SEQUENCING IN PROGRESS *** from clone WTSI_1005-403I17

AL031254 definition: DDBJ: Caenorhabditis elegans Other 4R79. definition: EMBL: Caenorhabditis elegans clone 4R79

AL032671 definition: DDBJ: Caenorhabditis elegans Other 3R5. definition: EMBL: Caenorhabditis elegans clone 3R5

REFERENCE - AUTHORS
AUTHORS行/RA行での差異は、「～が欠けている」のように単純に判断できる例は少ない. 内容のユニーク数でみると、41/52がEMBLとDDBJで更新日が異なっており、これらはEMBL側での変更がDDBJ側に反映されていないために生じた可能性がある. また、更新日が同一の11例のうち4例は、REFERENCE番号は異なるために別々にカウントされているが実際は同じ文献へのREFERENCE（著者がNilsson,M.A., Gullberg,A., Spotorno,A.E., Arnason,U. and Janke,A.）であり、DDBJ側では同一の文献が2件登録されているが、EMBL側ではそのうち片方が削除されているために差異が生じている. このエントリーは、AUTHORSだけでなくTITLE, JOURNALも同様にEMBL側でREFERENCEが存在しないことにより差異が生じている.

EMBLとDDBJで更新日が同一のエントリー
REFERENCE 1

AL023457 ref1: authors: DDBJ: Bolshakov,V., Minana,B. and Kafatos,F. ref1: authors: EMBL: Ferraz C., Vidal S., Brun C., Bucheton A., Demaille J.G.; Bolshakov V., Minana B., Kafatos F.; 同じreference番号の重複による誤検出.

REFERENCE 2 ref2: authors: DDBJ: Das,P.D., Bhattacharyya,D.B., Ghosh,S.G. and Bhattacharyya,P.B. ref2: authors: EMBL: Das P., Bhattacharyya S., Ghosh S., Bhattacharyya N.M.;

ref2: authors: DDBJ: Jaervinen,P.L.H. ref2: authors: EMBL: Jaervinen P.L.H., Sopanen T., Keinaenen M.; Jaervinen P.L.H.;

ref2: authors: DDBJ: Krieger,B.U., Rezakhani,N., Drake,H.L. and Schramm,A. ref2: authors: EMBL:

ref2: authors: DDBJ: Naumann,M., Schuessler,A. and Bonfante,P. ref2: authors: EMBL: Naumann M., Schussler A., Bonfante P.;

ref2: authors: DDBJ: Nilsson,M.A., Gullberg,A., Spotorno,A.E., Arnason,U. and Janke,A. ref2: authors: EMBL:

ref2: authors: DDBJ: Pochon,X.C., Garcia-Cuetos,L., Baker,A.C., Castella,E. and Pawlowski,J. ref2: authors: EMBL: Pochon X., Garcia-Cuetos L., Baker A.C., Castella E., Pawlowski J.;

ref2: authors: DDBJ: Study,of,genes,implicated,in,salinity,stress,by,genomic,approach,in and rout ref2: authors: EMBL: Study of genes implicated in salinity stress by genomic approach in trout;

REFERENCE 3

X93334 ref3: authors: DDBJ: Nilsson,M.A., Gullberg,A., Spotorno,A.E., Arnason,U. and Janke,A. ref3: authors: EMBL: このエントリーでは、DDBJではREFERENCE 3とREFERENCE 4またはREFERENCE 2とREFERENCE 3に同じ文献（ページ表記のみS3-S12と3-12という違いがある）が入っており、EMBLではRN 3またはRN 2がなくRN 4のみになっている.

REFERENCE 4

AJ278511, Y13113 ref4: authors: DDBJ: Nilsson,M.A., Gullberg,A., Spotorno,A.E., Arnason,U. and Janke,A. ref4: authors: EMBL: このエントリーでは、DDBJではREFERENCE 4とREFERENCE 5に同じ文献（ページ表記のみS3-S12と3-12という違いがある）が入っており、EMBLではRN 4がなくRN 5のみになっている.

REFERENCE 5

X72204, Y16884 ref5: authors: DDBJ: Nilsson,M.A., Gullberg,A., Spotorno,A.E., Arnason,U. and Janke,A. ref5: authors: EMBL: このエントリーでは、DDBJではREFERENCE 5とREFERENCE 6に同じ文献（ページ表記のみS3-S12と3-12という違いがある）が入っており、EMBLではRN 5がなくRN 6のみになっている.

EMBLとDDBJで更新日が異なるエントリー
以下のものについてはEMBLとDDBJで更新日が異なるため、EMBL側での更新がDDBJ側に反映されていないことにより差異が生じている可能性がある.

REFERENCE 1（3,367エントリー） ref1: authors: DDBJ: Caenorhabditis,elegans,Sequencing,Consortium. ref1: authors: EMBL: ;

ref1: authors: DDBJ: Harley,J. ref1: authors: EMBL: Gordon D.;

ref1: authors: DDBJ: Howden,P. ref1: authors: EMBL: Kerwin J.;

ref1: authors: DDBJ: Howden,P. ref1: authors: EMBL: Wileman T.;

ref1: authors: DDBJ: Kelly,D. ref1: authors: EMBL: Gordon D.;

ref1: authors: DDBJ: Kerry,G. ref1: authors: EMBL: Gordon D.;

ref1: authors: DDBJ: Lambert,O. ref1: authors: EMBL: Pelan S.;

ref1: authors: DDBJ: Whitehead,S. ref1: authors: EMBL: Gordon D.;

ref1: authors: DDBJ: Whitehead,S. ref1: authors: EMBL: Griffiths G.;

ref1: authors: DDBJ: Whitehead,S. ref1: authors: EMBL: Harley J.;

ref1: authors: DDBJ: Whitehead,S. ref1: authors: EMBL: Howden P.;

ref1: authors: DDBJ: Whitehead,S. ref1: authors: EMBL: Kelly D.;

ref1: authors: DDBJ: Whitehead,S. ref1: authors: EMBL: Kerry G.;

ref1: authors: DDBJ: Whitehead,S. ref1: authors: EMBL: Kerwin J.;

ref1: authors: DDBJ: Whitehead,S. ref1: authors: EMBL: Wileman T.;

REFERENCE 2（82エントリー） ref2: authors: DDBJ: Balandyte,L., Oevermann,A., Brodard,I., Frey,J. and Abril,C. ref2: authors: EMBL: Balandyte L., Brodard I., Frey J., Oevermann A., Abril C.;

ref2: authors: DDBJ: Beck,C., Wamsley,P. and Keppler,N. ref2: authors: EMBL: Beck C., Wamsley P., Keppler D.;

ref2: authors: DDBJ: Bradshaw,H., Stellyes,L. and Wilson,R.K. ref2: authors: EMBL: Bradshaw H., Stellyes L., Wilson R., Wilson R.K.;

ref2: authors: DDBJ: C,R.K., D,N.V. and Rahman,G. ref2: authors: EMBL: D N.V., C R.K., Rahman G.;

ref2: authors: DDBJ: Favello,A., Favello,T. and Wilson,R.K. ref2: authors: EMBL: Favello A., Wilson R., Favello T., Wilson R.K.;

ref2: authors: DDBJ: Favello,T. ref2: authors: EMBL: Favello A., Favello T.;

ref2: authors: DDBJ: Favello,T. ref2: authors: EMBL: Favello A.;

ref2: authors: DDBJ: Favello,T. and Rifkin,L. ref2: authors: EMBL: Favello A., Rifkin L.;

ref2: authors: DDBJ: Favello,T., Le,T., Favello,A., Leimbach,D. and Wilson,R.K. ref2: authors: EMBL: Favello A., Le T., Leimbach D., Wilson R.K.;

ref2: authors: DDBJ: Favello,T., Maggi,L., Rifkin,L., Chiapelli,B. and Wilson,R. ref2: authors: EMBL: Favello A., Maggi L., Rifkin L., Chiapelli B., Wilson R.;

ref2: authors: DDBJ: Favello,T., Rifkin,L. and Chiapelli,B. ref2: authors: EMBL: Favello A., Rifkin L., Chiapelli B.;

ref2: authors: DDBJ: Fulton,L., Fulton,L.L. and Wilson,R.K. ref2: authors: EMBL: Fulton L., Wilson R., Fulton L.L., Wilson R.K.;

ref2: authors: DDBJ: Hocher,V., Alloisio,N., Auguy,F., Fournier,P., Doumas,P., Pujic,P., Gherbi,H., Queiroux,C., Da,Silva,C., Wincker,P., Normand,P. and Bogusz,D. ref2: authors: EMBL:

ref2: authors: DDBJ: Javanaud,C., Guasco,S., Michotey,V., Garcia,N., Anschutz,P. and Bonin,P. ref2: authors: EMBL: Javanaud C., Michotey V., Guasco S., Garcia N., Anschutz P., Canton M., Bonin P.;

ref2: authors: DDBJ: Johnson,D. and Wilson,R.K. ref2: authors: EMBL: Johnson D., Wilson R., Wilson R.K.;

ref2: authors: DDBJ: Jones,R.T., Bressan,A., Greenwell,A.G. and Fierer,N. ref2: authors: EMBL: Jones R.T., Bressan A., Greenwell A.M., Fierer N.;

ref2: authors: DDBJ: Latreil,P. and Wilson,R.K. ref2: authors: EMBL: Latreille P., Wilson R.K.;

ref2: authors: DDBJ: Latreil,P., Beck,C. and Le,T. ref2: authors: EMBL: Latreille P., Beck C., Le T.;

ref2: authors: DDBJ: Latreil,P., Stellyes,L., Elliot,G. and Wilson,R. ref2: authors: EMBL: Latreille P., Stellyes L., Elliot G., Wilson R.;

ref2: authors: DDBJ: Latreil,P., Twyman,B. and Wilson,R. ref2: authors: EMBL: Latreille P., Twyman B., Wilson R.;

ref2: authors: DDBJ: Latreil,P., Woessner,J. and Harrison,M. ref2: authors: EMBL: Latreille P., Woessner J., Harrison M.;

ref2: authors: DDBJ: Latreille,P. and Latreil,P. ref2: authors: EMBL: Latreille P.;

ref2: authors: DDBJ: Martin,J. and Wilson,R.K. ref2: authors: EMBL: Martin J., Wilson R., Wilson R.K.;

ref2: authors: DDBJ: Muniz,Y., Granier,M., Caruth,C., Umaharan,P., Marchal,C., Pavis,C., Martinez,Y., Benoit,P.F., Wicker,E. and Peterschmitt,M. ref2: authors: EMBL: Muniz Y., Granier M., Caruth C., Umaharan P., Marchal C., Pavis C., Wicker E., Martinez Y., Peterschmitt M.;

ref2: authors: DDBJ: Pauley,A. and Wilson,R.K. ref2: authors: EMBL: Pauley A., Wilson R., Wilson R.K.;

ref2: authors: DDBJ: Woessne,J., Stellyes,L. and Wilson,R.K. ref2: authors: EMBL: Woessner J., Stellyes L., Wilson R.K.;

REFERENCE - TITLE
add_flag_title.pl

差異の原因別にエントリー数をカウントした結果は以下の通りである. 各分類の左側の数字はエントリー数、右側の数字はTITLE項目の内容のユニーク数、括弧に入っている数字は、DDBJとEMBLで更新日が異なっている数である.

差異の原因の区分は次のようになっている. チェック時には数字の小さいものの優先度を高くしている.
 * 1) embl_no_data: EMBLのデータではREFERENCEが存在しない.
 * 2) del_semicolon_to_line_end: EMBLのRT行でセミコロン（;）からその行の行末までがDDBJで欠けている.
 * 3) del_last_line: EMBLのデータでRT行の最後の1行分がDDBJで欠けている.
 * 4) del_tail: EMBLのデータの末尾がDDBJで欠けている.
 * 5) del_head: EMBLのデータの先頭部分がDDBJで欠けている.
 * 6) others: その他

embl_no_data
ユニークな内容で見た場合、REFERENCE2, 3, 4, 5におけるembl_no_dataの各1件ずつは、AUTHORSの項目にあったDDBJ側では同じ文献が2回REFERENCEに入っているがEMBL側では片方が削除されているエントリーである.

Y11137

DDBJ REFERENCE  3 AUTHORS  Nilsson,M.A., Gullberg,A., Spotorno,A.E., Arnason,U. and Janke,A. TITLE    Radiation of marsupials after the K/T boundary: evidence from complete mitochondrial genomes JOURNAL  J. Mol. Evol. 57, S3-S12(2003). REFERENCE  4 AUTHORS  Nilsson,M.A., Gullberg,A., Spotorno,A.E., Arnason,U. and Janke,A. TITLE    Radiation of marsupials after the K/T boundary: evidence from complete mitochondrial genomes JOURNAL  J. Mol. Evol. 57, 3-12(2003).

EMBL RN  [4] RA  Nilsson M.A., Gullberg A., Spotorno A.E., Arnason U., Janke A.; RT  "Radiation of marsupials after the K/T boundary: evidence from complete RT   mitochondrial genomes"; RL  J. Mol. Evol. 57:3-12(2003).

これ以外の2件は以下のようになっている.

FQ323135

DDBJ REFERENCE  2 AUTHORS  Hocher,V., Alloisio,N., Auguy,F., Fournier,P., Doumas,P., Pujic,P., Gherbi,H., Queiroux,C., Da,Silva,C., Wincker,P., Normand,P. and Bogusz,D. TITLE    Transcriptomics of actinorhizal symbioses reveals homologs of the whole common symbiotic signaling cascade JOURNAL  Plant Physiol. 156(2), 700-711(2011).

EMBL側ではこのREFERENCEがない. このエントリーはEMBLとDDBJで更新日が異なっている.

AM403158

DDBJ REFERENCE  2 AUTHORS  Krieger,B.U., Rezakhani,N., Drake,H.L. and Schramm,A. TITLE    Diversity of Nitrate-reducing and Denitrifying Bacteria in a Marine Aquaculture Biofilter JOURNAL  Unpublished.

EMBL側ではこのREFERENCEがない. このエントリーはEMBLとDDBJで更新日が同一.

del_semicolon_to_line_end
EMBLのRT行でのセミコロン（;）からその行の行末までがDDBJでは欠けている. 以下に一例を挙げる.

X02659

DDBJ TITLE    The  Rhodopseudomonas viridis: isolation of the gene, nucleotide and amino acid sequence

EMBL RT  "The ;heavy' subunit of the photosynthetic reaction centre from RT   Rhodopseudomonas viridis: isolation of the gene, nucleotide and amino acid RT   sequence";

del_last_line
EMBLのデータでRT行の最後の1行分がDDBJで欠けている. これは以下の1例のみ（エントリー数としては36）見つかった.

※上のテーブルにはREFERENCE_1_TABLEに*が付いているものが別に1件あるが、これは同じREFERENCE番号で異なる2件のREFERENCEが登録されていることによる誤判定だった.

FN554828

DDBJ TITLE    Role of nitrate in conditioning aquifer sediments for technetium

EMBL RT  "Role of nitrate in conditioning aquifer sediments for technetium RT   bioreduction";

del_tail
FN396875（他全44エントリー）

DDBJ TITLE    A new genotype 2 subcluster identified among GBV-C strains circulating in the Lisbon metropolitan area of Portuga

EMBL RT  "A new genotype 2 subcluster identified among GBV-C strains circulating in RT   the Lisbon metropolitan area of Portugal"; DDBJで末尾の1文字が欠落.

AJ132711

DDBJ TITLE    Complete nucleotide sequence of Iranian tomato yellow leaf curl virus isolate: further evidence for natural recombination amongst begomoviruses

EMBL RT  "Complete nucleotide sequence of Iranian tomato yellow leaf curl virus RT   isolate: further evidence for natural recombination amongst begomoviruses. RT   Brief Report"; 「Brief Report」が抜けているが、これは問題ないと思われる.

FM163471（他全11エントリー）

DDBJ TITLE    Concatameric cloning of porcine microRNA molecules after assembly

EMBL RT  "Concatameric cloning of porcine microRNA molecules after assembly PCR"; DDBJの末尾の1ワードが欠落.

FM200052（他全8エントリー）

DDBJ TITLE    First description of swine torque teno virus (TTV) and detection of            a new genogroup in Hungary

EMBL RT  "First description of swine Torque teno virus (TTV) and detection of a new RT   genogroup in Hungary: short communication"; 「short communication」が抜けているが、これは問題ないと思われる.

AM420309（他全9エントリー）

DDBJ TITLE    Identification of lactic acid bacteria within the consortium of a            kefir grain by sequencing 16S rDNA variable region

EMBL RT  "Identification of lactic acid bacteria within the consortium of a kefir RT   grain by sequencing 16S rDNA variable regions"; DDBJで末尾の1文字が欠落.

FM877472（他全2エントリー）

DDBJ TITLE    Impact of biocide treatments on the bacterial communities of the Lascaux Cav

EMBL RT  "Impact of biocide treatments on the bacterial communities of the Lascaux RT   Cave"; DDBJで末尾の1文字が欠落.

FR716024（他全9エントリー）

DDBJ TITLE    Swine Influenza Virus Antibodies in Humans, Western Europe

EMBL RT  "Swine influenza virus antibodies in humans, western Europe, 2009"; DDBJの末尾の1ワードが欠落.

AM407400（他全5エントリー）

DDBJ TITLE    Variability and Action Mechanism of a Family of Anticomplement Proteins

EMBL RT  "Variability and action mechanism of a family of anticomplement proteins in RT   Ixodes ricinus"; DDBJの末尾3ワードが欠落.

AM183165（他全2エントリー）

DDBJ TITLE    tet(A)-mediated tetracycline resistance in porcine Bordetella bronchiseptica isolates is based on plasmid-borne Tn1721 relic

EMBL RT  "tet(A)-mediated tetracycline resistance in porcine Bordetella RT   bronchiseptica isolates is based on plasmid-borne Tn1721 relics"; DDBJで末尾の1文字が欠落.

Z50040

DDBJ TITLE    Diverse patterns of the tandem repeats organization in rye chromosome

EMBL RT  "Diverse patterns of the tandem repeats organization in rye chromosomes"; DDBJで末尾の1文字が欠落.

del_head
上のテーブルで*を付けたREFERENCE 2の5例のうち1例（31エントリー）は、2つのREFERENCEが同じREFERENCE番号で入っていたことによる誤判定だった.

FN252411

DDBJ TITLE    Successful Treatment of Cutaneous Leishmaniasis Caused by Leishmania aethiopica with Liposomal Amphothericin B in an Immunocompromised Traveler Returning from Eritrea

EMBL RT  "Case report: Successful treatment of cutaneous leishmaniasis caused by RT   Leishmania aethiopica with liposomal amphothericin B in an RT   immunocompromised traveler returning from Eritrea"; DDBJで「Case report:」が欠落. 問題はないと思われる. 故意に落とした可能性もある.

FN395346（他全23エントリー）

DDBJ TITLE    iphasic kinetics of  a methanotrophic community is a combination of            growth and increased activity per cell

EMBL RT  "Biphasic kinetics of a methanotrophic community is a combination of growth RT   and increased activity per cell"; DDBJで先頭の1文字が欠落.

AM284419（他全22エントリー）

DDBJ TITLE    nclusion of the South Pacific Alpine Genus Oreomyrrhis (Apiaceae) in            Chaerophyllum Based on Nuclear and Chloroplast DNASequences

EMBL RT  "Inclusion of the South Pacific alpine genus Oreomyrrhis (Apiaceae) in RT   Chaerophyllum based on nuclear and chloroplast DNA sequences"; DDBJで先頭の1文字が欠落.

AM295777（他全8エントリー）

DDBJ TITLE    pecies-specific primers for Eutypella parasitica, the causal agent of Eutypella canker of maple

EMBL RT  "Species-Specific Primers for Eutypella parasitica, the Causal Agent of RT   Eutypella Canker of Maple"; DDBJで先頭の1文字が欠落.

AJ786341（他全2エントリー）

DDBJ TITLE    Candidatus Haliscomenobacter calcifugiens', filamentous, planktonic bacteria inhabiting natural lakes

EMBL RT  "'Candidatus Aquirestis calciphila' and 'Candidatus Haliscomenobacter RT   calcifugiens', filamentous, planktonic bacteria inhabiting natural lakes"; DDBJで先頭の4ワードが欠落.

others
othersに入ったエントリーのTITLE行/RT行を比較すると、一部の単語が変更されているものが多く見られた. そこで、EMBLとDDBJの間で異なる単語が何個出現したかを数えた. DDBJとEMBLのどちらかで、どちらにかしか存在しない単語が4語以上の場合はothersとした.

AJ966727 (FLAG_REFERENCE_2_TITLE = 'diff_word_num:EMBL 3/14 DDBJ 3/14')

DDBJ TITLE    MOLECULAR CHARACTERIZATION OF NEW NATURAL HYBRIDS BETWEEN S.            cerevisiae AND S. kudriavzevii FROM BREWING

EMBL RT  "Molecular characterization of new natural hybrids of Saccharomyces RT   cerevisiae and S. kudriavzevii in brewing";

ほとんどの差異は、単語の綴り違いやわずかな変更に起因していると考えられる. 機械的な処理ではこのような変更は生じないと思われるので、人手が介在しているのだろうか？

REFERENCE - JOURNAL
add_flag_journal.pl

差異の原因別にエントリー数をカウントした結果は以下の通りである. 各分類の左側の数字はエントリー数、右側の数字はJOURNAL項目の内容のユニーク数、括弧に入っている数字は、DDBJとEMBLで更新日が異なっているエントリー数である.

差異の原因の区分は次のようになっている. チェック時には数字の小さいものの優先度を高くしている.


 * 1) embl_no_data: EMBLのデータではREFERENCEが存在しない.
 * 2) drop_issue: DDBJのデータでjournalの号番号が表記されていない. 特に問題はない.
 * 3) del_tail: DDBJのデータの末尾が欠けている.
 * 4) del_pt: DDBJのデータでjournalの号番号中の「Pt」が表記されていない. 特に問題はない.
 * 5) diff_last_page: DDBJとEMBLでjournalの終了ページ番号が異なる.
 * 6) diff_issue: DDBJとEMBLでjournalの号番号が異なる.
 * 7) diff_vol_issue_page: DDBJとEMBLでjournalの巻・号・ページ番号・出版年のどこかが異なる.
 * 8) others: その他

embl_no_data
これは、REFERENCE - TITLEの項目のembl_no_dataと同じエントリーである.

drop_issue, del_pt
DDBJではjournalの号番号が入っていない場合があるが、号番号は必須ではないのであまり問題はないだろう.

X82560 ref1: journal: DDBJ: Mol. Gen. Genet. 247, 39-47(1995). ref1: journal: EMBL: Mol. Gen. Genet. 247(1):39-47(1995).

FQ312004 ref1: journal: DDBJ: Microbiology (Reading, Engl.) 156(11), 3255-3269(2010). ref1: journal: EMBL: Microbiology (Reading, Engl.) 156(Pt 11):3255-3269(2010).

del_tail
journal表記の末尾が欠けている.

FM871605 ref2: journal: DDBJ: J. Comp. Physiol. B, Biochem. Syst. Environ. Physiol. 179(3), ref2: journal: EMBL: J. Comp. Physiol. B, Biochem. Syst. Environ. Physiol. 179(3):369-381(2009).

diff_last_page, diff_issue, diff_vol_issue_page
journalの巻・号・ページ番号・出版年がEMBLとDDBJで異なっている.

AJ534987 ref2: journal: DDBJ: AIDS 18(9), 1345-1352(2004). ref2: journal: EMBL: AIDS 18(9):1345-1346(2004).

FR718872 ref2: journal: DDBJ: Med. Mycol. 49(2), 724-733(2011). ref2: journal: EMBL: Med. Mycol. 49(7):724-733(2011).

FN557592 ref2: journal: DDBJ: ISME J 0, 0-0(2010). ref2: journal: EMBL: ISME J 4(7):862-871(2010).

REFERENCE - CONSRTM
CONSRTM行で差異がみられるのは、ユニークな内容としては1件のみで、1,515エントリーすべてがDDBJとEMBLで更新日が異なるため、EMBL側での変更がDDBJ側に反映されていないために差異が生じていると考えられる.

ref1: consrtm: DDBJ: WormBase Consortium ref1: consrtm: EMBL: Caenorhabditis elegans Sequencing Consortium

REFERENCE - REMARK
CR954246

DDBJ REMARK   1. Genoscope, CNRS-UMR 8030, Atelier de Genomique Comparative, 2, rue Gaston Cremieux, 91006 Evry Cedex, France 2. Genetics of           Bacterial Genomes, Institut Pasteur, 28 rue du Docteur Roux, 75724 Paris Cedex 15, France 3. Dept of Biochemistry & Biophysics, Stockholm University, S-106 91 Stockholm, Sweden 4. Dynamique, Evolution et Expression de Genomes de Micro-organismes, Universite Louis Pasteur, 28, rue Goethe, 67000 Strasbourg, France 5. Laboratoire de Biochimie, Institut de Chimie B6, Universite de           Liege, B-4000 Liege-Sart Tilman, Belgium 6. Dipartimento di Chimica Organica e Biochimica, edificio MB, via Cinthia, Complesso

EMBL RC  1. Genoscope, CNRS-UMR 8030, Atelier de Genomique Comparative, 2, rue RC  Gaston Cremieux, 91006 Evry Cedex, France 2. Genetics of Bacterial Genomes, RC  Institut Pasteur, 28 rue du Docteur Roux, 75724 Paris Cedex 15, France 3. RC  Dept of Biochemistry & Biophysics, Stockholm University, S-106 91 RC  Stockholm, Sweden 4. Dynamique, Evolution et Expression de Genomes de RC  Micro-organismes, Universite Louis Pasteur, 28, rue Goethe, 67000 RC  Strasbourg, France 5. Laboratoire de Biochimie, Institut de Chimie B6, RC  Universite de Liege, B-4000 Liege-Sart Tilman, Belgium 6. Dipartimento di RC  Chimica Organica e Biochimica, edificio MB, via Cinthia, Complesso RC  Universitario Monte S. Angelo, 80126 Napoli, Italy 7. CEA Saclay, RC  Laboratoire Stress Oxydants et Cancer, DSV/DBJC/SBMS, Bat 142, 91191 Gif RC  sur Yvette Cedex, France EMBLのRC行の末尾3行分がDDBJでは欠落.

CT573213

DDBJ REMARK   1. UMR CNRS 5557 Ecologie Microbienne, IFR41 Bio Environnement et           Sante Universite Lyon I, Villeurbanne 69622 cedex, France; 2. Department of Molecular and Cell Biology, University of Connecticut, Storrs, CT 06279 3. Department of Microbiology, University of New Hampshire, Durham, NH, 03824. 4. Department of Plant Sciences, University of California, Davis, CA 95616 5. INRA-URGV, 2 rue Gaston Cremieux BP5708 91057 Evry cedex, France 6. Genoscope, Centre National de Sequenage, 2 rue Gaston Cremieux BP5706 91057 Evry cedex, France. 7. Genoscope, CNRS-UMR 8030, Atelier de Genomique Comparative, 2 rue Gaston Cremieux BP5706 91006 Evry cedex, France

EMBL RC  1. UMR CNRS 5557 Ecologie Microbienne, IFR41 Bio Environnement et Sante RC  Universite Lyon I, Villeurbanne 69622 cedex, France; 2. Department of RC  Molecular and Cell Biology, University of Connecticut, Storrs, CT 06279 3. RC  Department of Microbiology, University of New Hampshire, Durham, NH, 03824. RC  4. Department of Plant Sciences, University of California, Davis, CA 95616 RC  5. INRA-URGV, 2 rue Gaston Cremieux BP5708 91057 Evry cedex, France 6. RC  Genoscope, Centre National de Sequenage, 2 rue Gaston Cremieux BP5706 91057 RC  Evry cedex, France. 7. Genoscope, CNRS-UMR 8030, Atelier de Genomique RC  Comparative, 2 rue Gaston Cremieux BP5706 91006 Evry cedex, France 8. RC  Bioinformatics and Evolutionary Genomics Laboratory, UMR CNRS 5558, RC  Universite Lyon I, Villeurbanne 69622 cedex, France 9. DOE Joint Genome RC  Institute, 2800 Mitchell Drive, Walnut Creek, CA 94598 10. Departments of RC  Botany and Biochemistry, Cellular & Molecular Biology and The Genome RC  Science & Technology Program, The University of Tennessee, Knoxville, TN RC   37996 11. UPSC, Dept of Plant Physiology, Ume University, S-90187 Ume, RC  Sweden 12. Instituto de Biologia Molecular e Celular, Microbiologia Celular RC  e Aplicada, Rua do Campo Alegre, 823, 4150-180 Porto, Portugal. 13. Clemson RC  University Genomics Institute, Room 304 Biosystems Research Complex, RC  Clemson, SC 29634 14. Departamento de Ciencia y Tecnologa, Universidad RC  Nacional de Quilmes, Saenz Pea 180 Bernal B1876BXD Argentina EMBLのRC行の末尾11行分がDDBJでは欠落.

AL023457もREMARKにおいて差異が検出されたが、これはこのエントリーで2つのREFERENCEが同じREFERENCE番号だったことによる誤判定だった.

reference number重複のチェック
いくつかのエントリーでreference numberの重複があったので、どのくらいのエントリーでreference numberの重複があるのかを調べた.

check_ref_num.pl

集計
ここまでのDDBJ release 88とEMBLのエントリーの比較結果から、EMBLの最終更新年ごとに何件のエントリーで差異が検出されたか、エントリーの延べ数を集計した. 違う箇所で同じエントリーがカウントされた場合、それぞれ別エントリーとしてカウントしている. 前項でチェックした、リファレンス番号の重複したエントリーでは、該当するリファレンス番号で検出された差異については無視した.

count_flag_year.pl

年はEMBLでのエントリーの最終更新年、テーブル中の括弧内の数字は、DDBJとEMBLで最終更新日が異なるエントリーの数である.

過去のDDBJ releaseでの状況
上記のEMBLフォーマットからDDBJ FFへの変換エラーがいつからあったのかを見るため、古くから発生しており頻度も高いDEFINITIONの末尾欠落、TITLEのセミコロンから行末まで欠落の件数を、release 24（1996年1月）、release 44（2001年1月）、release 64（2005年12月）とEMBLのデータ（2011年12月）との比較を行ってカウントした. この2つ以外の誤変換については対象外とした. 各releaseと同時期のEMBLのデータは手元にないため、各releaseがリリースされて以降にEMBLで修正されたエントリーについては比較できない.

上記の結果をもとに、さらに誤変換が最初に発生したリリースを確定するため、release 34（1998年7月）, 35（1998年10月）, 38（1999年7月）, 39（1999年10月）, 41（2000年4月）, 42（2000年7月）, 43（2000年10月）で同様に比較を行った.

EMBLの更新年別の、DEFINITION行における末尾欠落の発生エントリー数

DEFINITION行はrelease 39のリリース時（1999年10月）に一度、末尾欠落の誤変換が発生し、その後release 43のリリース時（2000年10月）に再び末尾欠落の誤変換が発生している. release 42で誤変換が発生していたACCESSIONはすべてrelease 43で誤変換が発生しているACCESSIONに含まれている.

release 39で誤変換が発生している例

X55539 (DT  05-AUG-1992 (Rel. 33, Last updated, Version 1))  EMBL (2011.12) DE  T.equiperdum mRNA for 20star BC, Bordeaux trypanozoan antigenic type 20star

release 38 DEFINITION T.equiperdum mRNA for 20star BC, Bordeaux trypanozoan antigenic type 20star.

release 39 DEFINITION T.equiperdum mRNA for 20star BC, Bordeaux trypanozoan antigenic type

release 42 DEFINITION T.equiperdum mRNA for 20star BC, Bordeaux trypanozoan antigenic type

release 43 DEFINITION T.equiperdum mRNA for 20star BC, Bordeaux trypanozoan antigenic type

X57924 (DT  04-JUN-1991 (Rel. 28, Last updated, Version 1)) EMBL (2011.12) DE  Rice tungro bacilliform virus (infectious clone) ORF's P24, P12, P194 & P46

DDBJ release 38 DEFINITION Rice tungro bacilliform virus (infectious clone) ORF's P24, P12, P194 & P46.

release 39 DEFINITION Rice tungro bacilliform virus (infectious clone) ORF's P24, P12, P194 &

release 42 DEFINITION Rice tungro bacilliform virus (infectious clone) ORF's P24, P12, P194 &

release 43 DEFINITION Rice tungro bacilliform virus (infectious clone) ORF's P24, P12, P194 &

release 43で誤変換が発生している例

X03417 (DT  02-JUL-1986 (Rel. 09, Last updated, Version 1)) EMBL (2011.12) DE  Petunia hybrida chloroplast DNA with autonomous replication activity (ARSA)

DDBJ release 38 DEFINITION Petunia hybrida chloroplast DNA with autonomous replication activity (ARSA).

release 39 DEFINITION Petunia hybrida chloroplast DNA with autonomous replication activity (ARSA).

release 42 DEFINITION Petunia hybrida chloroplast DNA with autonomous replication activity (ARSA).

release 43 DEFINITION Petunia hybrida chloroplast DNA with autonomous replication activity

X59930 (DT  10-DEC-1991 (Rel. 30, Last updated, Version 5)) EMBL (2011.12) DE  M.falcata mRNA for environmental stress and abscisic acid inducible protein

DDBJ release 38 DEFINITION M.falcata mRNA for environmental stress and abscisic acid inducible protein.

release 39 DEFINITION M.falcata mRNA for environmental stress and abscisic acid inducible protein.

release 42 DEFINITION M.falcata mRNA for environmental stress and abscisic acid inducible protein.

release 43 DEFINITION M.falcata mRNA for environmental stress and abscisic acid inducible

EMBLの更新年別の、TITLE行におけるEMBLフォーマットでのセミコロンからその行の行末までの欠落の発生エントリー数

TITLE行はrelease 35のリリース時（1998年10月）に、EMBLフォーマットにおけるセミコロンからその行の行末までが欠落する誤変換が発生している.

release 35で発生している例

X06211 (DT  06-JUL-1989 (Rel. 20, Last updated, Version 1)) EMBL (2011.12) RT  "The nucleotide sequence of the extreme 5' end of the avian coronavirus RT   genome; implications for the discontinuous mRNA synthesis";

DDBJ release 34 TITLE    The nucleotide sequence of the extreme 5' end of the avian coronavirus genome; implications for the discontinuous mRNA synthesis

release 35 TITLE    The nucleotide sequence of the extreme 5' end of the avian coronavirus genome

X17653 (DT  05-NOV-1991 (Rel. 30, Last updated, Version 1)) EMBL (2011.12) RT  "Human IgG Fc receptor (hFcRII; CD32) exists as multiple isoforms in RT   macrophages, lymphocytes and IgG-transporting placental epithelium";

relese 34 TITLE    Human IgG Fc receptor (hFcRII; CD32) exists as multiple isoforms in            macrophages, lymphocytes and IgG-transporting placental epithelium

release 35 TITLE    Human IgG Fc receptor (hFcRII            macrophages, lymphocytes and IgG-transporting placental epithelium

X04620 (DT  04-AUG-1992 (Rel. 33, Last updated, Version 6)) EMBL (2011.12) RT  "Chromosome 8 breakpoint far 3' of the c-myc oncogene in a Burkitt's RT   lymphoma 2;8 variant translocation is equivalent to the murine pvt-1 RT   locus";

DDBJ release 34 TITLE    Chromosome 8 breakpoint far 3' of the c-myc oncogene in a Burkitt's            lymphoma 2;8 variant translocation is equivalent to the murine pvt-1 locus

release 35 TITLE    Chromosome 8 breakpoint far 3' of the c-myc oncogene in a Burkitt's            lymphoma 2 locus

release 35で一度発生して、release 39で復帰し、その後再発生した例（release 39ではセミコロン削除で回避されている？）

X61756 (DT  03-DEC-1991 (Rel. 30, Last updated, Version 6)) EMBL RT  "The V beta 17+ T cell repertoire: skewed J beta usage after thymic RT   selection; dissimilar CDR3s in CD4+ versus CD8+ cells";

release 34 TITLE    The V beta 17+ T cell repertoire: skewed J beta usage after thymic selection; dissimilar CDR3s in CD4+ versus CD8+ cells

release 35 TITLE    The Vbeta17+ T cell repertoire: skewed Jbeta usage after thymic selection

release 39 TITLE    The Vbeta17+ T cell repertoire: skewed Jbeta usage after thymic selection dissimilar CDR3s in CD4+ versus CD8+ cells

release 64 TITLE    The V beta 17+ T cell repertoire: skewed J beta usage after thymic selection

release 35では発生せず、release 39で発生した例（release 35ではセミコロン削除で回避されている？）

X05055 (DT  31-MAR-1992 (Rel. 31, Last updated, Version 3)) EMBL RT  "Location and sequence of the maize chloroplast gene for tRNAser (GCU); a RT   third serine isoaccepting tRNA";

DDBJ release 34 TITLE    Location and sequence of the maize chloroplast gene for tRNAser (GCU); a third serine isoaccepting tRNA

release 35 TITLE    Location and sequence of the maize chloroplast gene for tRNA-Ser (GCU) a third serine isoaccepting tRNA

release 39 TITLE    Location and sequence of the maize chloroplast gene for tRNA-Ser (GCU) third serine isoaccepting tRNA

TITLE    Location and sequence of the maize chloroplast gene for tRNA-Ser (GCU) third serine isoaccepting tRNA