特許庁由来データの整理 エントリ単位の整理（改訂版）

方針
1. 以下のようなテーブル(Table-A)を作成する. 塩基配列とアミノ酸配列を別のテーブルにする.


 * このテーブルは、JPO形式のエントリ、に関するテーブルである.
 * ID列について
 * エントリは、(directory, file_name, PN(patent number), AC (accession number), 配列) の組によって一意性を見る. (identifier=(directory, file_name, PN,AC,SQ))
 * したがって、文字列上はまったく同じjpoエントリであっても、置いてあるディレクトリやファイルが違うと、違うオブジェクトであると解釈されることになる.
 * このテーブルの母集団は、 「JPO形式ファイル全てのうち内容が異なるファイル一式」 の中に含まれる全JPOエントリである.

2. Table-Aから、以下のようなテーブル (Table-B)を作成する.

Table-Aから重複を取り除く. 文字列上同じjpo形式エントリがあったら、タイムスタンプがもっとも古いものをとる. いきなりTable-Bを作らないのはMD5, SHA1が期待通りの機能をするかどうかの確認のためである.


 * このテーブルは、JPO形式のエントリ、に関するテーブルである.
 * ID列について
 * エントリは、(jpo_md5, jpo_sha1) の組によって一意性を見る. (identifier=(jpo_md5, jpo_sha1))
 * したがって、jpo形式エントリが文字列上異なれば違うオブジェクトであると解釈されることになる.
 * このテーブルの母集団は、 「JPO形式ファイル全てのうち内容が異なるファイル一式」 の中に含まれる全JPOエントリである.

3. Table-Bから以下のようなテーブル（Table-C)を作成する.

ID列についてはTable Bと同じ.

rel88_PN_check, rel88_AC_check, rel88_sq_checkについて
 * rel88_AC_check: rel88のAccession numberのリストを作成し、これと、Table-BのAC列との間で左外部結合を行う. これによりrel.88にAC列の値があるかどうかを表す列が作られる.
 * rel88_PN_check: PNがrel88の記載とあっているかどうかを表す列
 * rel88_sq_check: 配列がrel88の記載と一致しているかどうかを表す列.

4. Table-Cから以下のようなテーブル(Table-D)を作る.

ID列についてはTable-Bと同じ.

5. Table-Dから以下のようなテーブル（Table-E）を作る.

ID列についてはTable-Bと同じ.

SQcnvについて（※1） PNcnvについて（※2）
 * SQをコピーする. SQの塩基配列データ中にuが含まれている場合、uをtに置換してからSQcnvに入れる.
 * PNをコピーする. 以下の場合は変換後の公報番号/配列番号をPNcnvに入れる.
 * PNの配列番号がA（アミノ酸配列）, N（塩基配列）から始まっている場合、A, Nを削ってPNcnvに入れる.
 * 特許データ更新履歴 2010/07/28の配列番号振り直しリスト中のアミノ酸Acc, 訂正前公報番号/配列番号がAC, PNと同一なら振り直し配列番号をPNcnvに入れる.
 * 特許データ更新履歴2009/04/15の公報番号誤記にあるACCESSIONのPNの公報番号上4桁を2004から2003に変更してPNcnvへ入れる.

5. Table-Eから以下のようなテーブル（Table-F）を作る.

ID列についてはTable-Bと同じ.

6. Table-Fから以下のようなテーブル（Table-R）を作る.


 * ID列について
 * エントリは、rel88_ACによって一意性を見る.

7. Table-Rからcompareに値が入っているレコード（修正の必要なレコード）を取り出し、以下のようなテーブル（Table-Rrev）を作る.

8. Table-Rrevから以下のようなテーブル（Table-PN）を作る.

Table-Aの作成
JPOから送付されたすべてのエントリーを格納したリレーショナルデータベースを作成する.

以下のリストにあるファイルを読み込んで、アミノ酸配列エントリー、塩基配列エントリーをそれぞれtable_A_aa, table_A_naに入れる.

アミノ酸配列


 * ファイル名が正規表現にマッチするJPO送付ファイルリスト：[[Media:Jpo_aa_file_list1.txt‎]]
 * ファイル名に規則性のないJPO送付ファイルリスト：[[Media:Jpo_aa_file_list2.txt‎]]

塩基配列


 * ファイル名が正規表現にマッチするJPO送付ファイルリスト：[[Media:Jpo_na_file_list1.txt‎]]
 * ファイル名に規則性のないJPO送付ファイルリスト：[[Media:Jpo_na_file_list2.txt‎]]

import_jpo_data.pl

ファイルの連結が必要な1997年の特許庁送付ファイルについては、連結したファイルのファイル名は1997.aa.seqと1997.na.seqとし、タイムスタンプは先頭ファイルのタイムスタンプを使うこととする.

import_1997_jpo_data.pl

md5値をユニークキーとして使用できるかを確認
同一のmd5値で異なるエントリが存在するかどうかをチェックする.

check_md5_dup.pl

リリース88までの特許庁送付データでは、同一のmd5で異なるエントリーは存在しなかった.

Table-Bの作成
table_A_aa, table_A_naから重複を取り除き、table_B_aa, table_B_naを作成する.

const_table_B.pl

DDBJ release88のテーブルを作成
DDBJ release88とPatent amino acid sequence data for JPOからACCESSION, 特許番号/配列番号, 配列データ, 全エントリーをリレーショナルデータベースに入れ、ddbj_pat, ddbj_rel88を作成する.

const_ddbj.pl

Table-Cの作成
table_B_aaとddbj_pat, table_B_naとddbj_rel88から結合条件をtable_B_xx.AC = ddbj_xx.ddbjACで左外部結合し、table_C_aa, table_C_naを作成する.

const_table_C.pl

table_Dの作成（スキップ）

Table-Eの作成
JPOからの送付後に行われた変更を可能な限り反映させたtable_Eを作成する.

配列データの修正
SQからSQcnvに値をコピーする. 塩基配列の場合は、コピー時に塩基uをtに置換する.

update_SQcnv.pl

配列番号の修正
PNからPNcnvに値をコピーする. この時、変換の必要なものについてはPN変換表に従って公報番号/配列番号の変換を行う. また、配列番号がAから始まるもの（アミノ酸配列）、Nから始まるもの（塩基配列）についてはA, Nを削除する.

PN変換表：[[Media:PN_cnv_marged.txt‎]]

ACCESSIONの修正
公報番号/配列番号と配列データがPNcnv, SQcnvと同じエントリーをddbj_data.dbから探し、そのエントリーのACとエントリー全体をACcnv, ddbjentry_for_ACcnvに入れる.

update_ACcnv.pl

ACcnv, PNcnv, SQcnvをddbjentry_for_ACcnvのエントリーと比較して、同じならそれぞれrel88_ACcnv_check, rel88_PNcnv_check, rel88_SQcnv_checkに1を入れる.

※よく考えてみると、ddbjentry_for_ACcnvにエントリーが入っていれば(1,1,1)、入っていなければ(-,-,-)にしかならない.

update_cnv_check.pl

修正を反映させたJPOエントリーの作成
jpo_entryにACcnv, PNcnv, SQcnvを反映させたエントリーを作成し、jpo_entry_cnvに入れる.

update_jpo_entry_cnv.pl

修正を反映させたJPOエントリーからDDBJ FFを生成
table_Eからjpo_md5, jpo_entry_cnvを書き出し、特許データ変換ツールでDDBJ FFを生成する.

export_jpo_entry.pl

変換ツールで作成したDDBJ FFをtable_Eのnew_entryに入れる.

update_new_entry.pl

DDBJ release88のFFと新ツールで生成したFFの差分を取りTable-Fを作成
table_Eにcompareカラムを追加してtable_Fを作成し、ddbjentry_for_ACcnvとnew_entryの比較で検出された差分を入れる.

差分の検出
両者の比較に際しては、以下のような改行位置のずれがあるため、LINE TYPE、改行、スペースを削除して比較する.

compare_ddbjff.pl

compare_sub.pl

差分をLINE TYPEごとに分割してTable-Fに格納
table_FにACCESSION, COMMENT_CC, COMMENT_FH, COMMENT_FT, COMMENT_OC, COMMENT_OS, COMMENT_PA, COMMENT_PC, COMMENT_PD, COMMENT_PI, COMMNENT_PR, COMMENT_US, DEFFINITION, FEATURES, FEATURES_source, LOCUS, ORIGIN, REFERENCE, REFERENCE_AUTHORS, REFERENCE_JOURNAL, REFERENCE_TITLE, SOURCE, SOURCE_ORGANISMカラムを追加し、compareの内容をLINE TYPEごとに分割して該当するカラムに入れる.

add_column_to_F.sh

split_error.pl

フラグ組み合わせパターンごとのACCESSIONリストを出力
rel88_AC_check, rel88_PN_check, rel88_SQ_check, rel88_ACcnv_check, rel88_PNcnv_check, rel88_SQcnv_check, new_tool_comp_flagの状態を調べる. さらに、ACcnvごとに状態の組み合わせを出して集計する.

count_check.pl

aa 1|1|1|1|1|1|9  414055 1|1|1|1|1|1|1   1051391 1|1|0|0|0|0|0   1 1|0|1|1|1|1|9   7980 1|0|1|1|1|1|1   618 1|0|1|0|0|0|0   7204 1|0|0|1|1|1|9   12385 1|0|0|0|0|0|0   2453 0|0|0|1|1|1|9   73807 0|0|0|1|1|1|1   14686 0|0|0|0|0|0|0   23413

0|0|0|1|1|1|1,1|1|1|1|1|1|1    14671(14437/234) 0|0|0|1|1|1|1,1|1|1|1|1|1|9     6(6/0) 0|0|0|1|1|1|9   10(10/0) 0|0|0|1|1|1|9,1|0|0|1|1|1|9     5365(5365/0) 0|0|0|1|1|1|9,1|0|0|1|1|1|9,1|1|1|1|1|1|1       8(0/8) 0|0|0|1|1|1|9,1|0|0|1|1|1|9,1|1|1|1|1|1|9       3481(3465/16) 0|0|0|1|1|1|9,1|1|1|1|1|1|1     3380(44/3336) 0|0|0|1|1|1|9,1|1|1|1|1|1|9     57346(57300/46) 1|0|1|1|1|1|1   456(0/456) 1|0|1|1|1|1|9   7980(7856/124) 1|1|1|1|1|1|1   934225(299882/634343) 1|1|1|1|1|1|1,1|1|1|1|1|1|9     123(25/98) 1|1|1|1|1|1|9   288370(125151/163219)

na 1|1|1|1|1|1|9  549755 1|1|1|1|1|1|1   7902953 1|1|1|1|1|1|0   1 1|1|0|1|1|1|9   325 1|1|0|1|1|1|1   3 1|1|0|0|0|0|0   1 1|0|1|1|1|1|9   6084 1|0|1|1|1|1|1   2323 1|0|1|0|0|0|0   7410 1|0|0|1|1|1|9   14489 1|0|0|1|1|1|1   514313 1|0|0|0|0|0|0   5724 0|0|0|1|1|1|9   34222 0|0|0|1|1|1|1   682416 0|0|0|0|0|0|0   48630

0|0|0|1|1|1|1  561(1/560) 0|0|0|1|1|1|1,0|0|0|1|1|1|9     228(0/228) 0|0|0|1|1|1|1,0|0|0|1|1|1|9,1|0|0|1|1|1|9,1|1|1|1|1|1|1 2384(2384/0) 0|0|0|1|1|1|1,0|0|0|1|1|1|9,1|0|0|1|1|1|9,1|1|1|1|1|1|1,1|1|1|1|1|1|9   7(7/0) 0|0|0|1|1|1|1,0|0|0|1|1|1|9,1|0|0|1|1|1|9,1|1|1|1|1|1|9 58(58/0) 0|0|0|1|1|1|1,1|0|0|1|1|1|1     6012(6012/0) 0|0|0|1|1|1|1,1|0|0|1|1|1|1,1|1|1|1|1|1|1       157(149/8) 0|0|0|1|1|1|1,1|0|0|1|1|1|9     523(523/0) 0|0|0|1|1|1|1,1|0|0|1|1|1|9,1|1|1|1|1|1|9       10(10/0) 0|0|0|1|1|1|1,1|1|1|1|1|1|1     671204(144389/526815) 0|0|0|1|1|1|1,1|1|1|1|1|1|9     976(976/0) 0|0|0|1|1|1|9   4910(5/4905) 0|0|0|1|1|1|9,1|0|0|1|1|1|1     560(560/0) 0|0|0|1|1|1|9,1|0|0|1|1|1|9     2913(2913/0) 0|0|0|1|1|1|9,1|0|0|1|1|1|9,1|1|1|1|1|1|9       3078(3064/14) 0|0|0|1|1|1|9,1|1|1|1|1|1|1     136(0/136) 0|0|0|1|1|1|9,1|1|1|1|1|1|9     14043(14022/21) 1|0|0|1|1|1|1   3(3/0) 1|0|0|1|1|1|1,1|1|1|1|1|1|1     507281(0/507281) 1|0|0|1|1|1|9   81(81/0) 1|0|1|1|1|1|1   2200(1455/745) 1|0|1|1|1|1|9   6084(5955/129) 1|1|0|1|1|1|1   3(1/2) 1|1|0|1|1|1|9   318(318/0) 1|1|0|1|1|1|9,1|1|1|1|1|1|1     3(3/0) 1|1|1|1|1|1|0,1|1|1|1|1|1|9     1(1/0) 1|1|1|1|1|1|1   6310755(299154/6011601) 1|1|1|1|1|1|1,1|1|1|1|1|1|9     5482(3572/1910) 1|1|1|1|1|1|9   468352(40506/427846)

以下の表におけるフラグの意味は次のようになっている.

rel88_AC_check
 * 1: ACCESSIONがACであるDDBJエントリーが存在する.
 * 0: ACCESSIONがACであるDDBJエントリーが存在しない.

rel88_PN_check
 * 1: ACCESSIONがACであるDDBJエントリーとPNが同じ.
 * 0: ACCESSIONがACであるDDBJエントリーとPNが異なる.
 * -: ACCESSIONがACであるDDBJエントリーが存在しないため比較できない.

rel88_SQ_check
 * 1: ACCESSIONがACであるDDBJエントリーとSQが同じ.
 * 0: ACCESSIONがACであるDDBJエントリーとSQが異なる.
 * -: ACCESSIONがACであるDDBJエントリーが存在しないため比較できない.

rel88_ACcnv_check
 * 1: 公報番号/配列番号, 配列データがPNcnv, SQcnvであるDDBJエントリーが存在する.
 * 0: 公報番号/配列番号, 配列データがPNcnv, SQcnvであるDDBJエントリーが存在しない.

new_tool_comp_flag
 * 1: ACCESSIONがACcnvであるDDBJエントリーとjpo_entry_cnvから新変換ツールで作成したDDBJ FFの内容が同じ.
 * 9: ACCESSIONがACcnvであるDDBJエントリーとjpo_entry_cnvから新変換ツールで作成したDDBJ FFの内容に違いがある.
 * 0: 公報番号/配列番号, 配列データがPNcnv, SQcnvであるDDBJエントリーが存在しないため比較できない.

アミノ酸配列

フラグ組み合わせごとのレコード数

ACCESSIONごとのフラグ組み合わせの組み合わせ

塩基配列

フラグ組み合わせごとのレコード数

ACCESSIONごとのフラグ組み合わせの組み合わせ

修正不要のACCESSIONに対しユニークなJPOエントリー（jpo_md5）を割り当て
新変換ツールで作成したDDBJ FFと比較したrelease88のDDBJ FFが同一の内容だったレコード（new_tool_comp_flag = 1）から、1つのACCESSIONに対して1つのレコードを割り当てるように絞り込みを行う.

1. (rel88_AC_check, rel88_PN_check, rel88_SQ_check)の組み合わせで以下のように優先順位をつけ、もっとも優先順位の高いレコードを選ぶ.

(1, 1, 1) > (1, 1, 0) > (1, 0, 1) > (1, 0, 0) > (0, -, -)

2. エントリーが記録されているファイルのタイムスタンプが最も古いレコードを選ぶ.

以上の1→2によって１つのACCESSIONに対して1つのレコードを割り当てることができた.

select_ac_md5.pl


 * AC_correct.txtはアミノ酸配列分と塩基配列分で分割する.

修正が必要なACCESSIONに対しユニークなJPOエントリー（jpo_md5）を割り当て
「修正が必要なACCESSION」にリストアップされたACCESSIONがACcnvに入っているレコードから、1つのACCESSIONに対して1つのレコードを割り当てるように絞り込みを行う.

1. エラーの検出箇所が最少のレコードを探す.

2. (rel88_AC_check, rel88_PN_check, rel88_SQ_check)の組み合わせで以下のように優先順位をつけ、もっとも優先順位の高いレコードを選ぶ.

(1, 1, 1) > (1, 1, 0) > (1, 0, 1) > (1, 0, 0) > (0, -, -)

3. エントリーが記録されているファイルのタイムスタンプが最も古いレコードを選ぶ.

以上の1→2→3によって1つのACCESSIONに対して1つのレコードを割り当てることができた.

count_error.pl

1DDBJ release88エントリーに対し1JPOエントリーのテーブルTable-Rを作成
DDBJ release88のACCESSIONごとに1つのmd5が割り当てられたので、このACCESSION-md5の組とTable-FからTable-Rを作成する.

一括して処理しようとすると時間がかかりすぎたので、塩基配列についてはTable-FのレコードをACcnvのprefixごとに分割し、同じくrel88_ACのprefixごとに分割したTable-Rを作成後、一つのテーブルにマージした.

const_table_R_aa.pl

const_table_R_separate.pl


 * アミノ酸データのtable_Rを作成


 * 塩基配列データのtable_Fをprefixごとに分割


 * prefixごとに塩基配列データのtable_Rのファイルを作成


 * 最後にひとまとめにする.

E50755, E55073, E55530, E55917, E56117, E56119, E56159
配列データに不正文字が入っているのを修正する.


 * table_C.dbから該当するエントリーを取り出し、table_C_seq_rev.dbを作成
 * table_E_seq_rev.dbを作成
 * SQcnvに正しいSQを入れる.
 * PNcnvをupdate
 * ACcnvをupdate
 * jpo_entry_cnvをupdateしファイルに出力し、配列データを修正してjpo_entry_cnvをupdate
 * table_F_seq_rev.dbを作成
 * table_E.db, table_F.dbからACがE50755, E55073, E55530, E55917, E56117, E56119, E56159のレコードを削除し、table_E_seq_rev.db, table_F_seq_rev.dbのレコードをコピーする.

E58573
送付ファイル（JP_PRT96.DAT）においてE58573とE58574の間のセパレータ（//）がないため、両者が1つのエントリーになってE58573が消失していた.


 * table_A_E58573.dbを作成
 * JP_PRT96.DATからACがE58573, E58574のエントリーをファイルに出力し、E58573のエントリー末尾に'//'を追加する.
 * テーブルを作成後、time_stampを'104323680', directoryを'/home/o0gasawa/data/DDBJ/jpo/mkrelease/data/old_data_backup_at_horn/JPO/jpo_update/1996', file_nameをJP_PRT96.DATに書き換える.
 * jpo_md5が他のレコードと重複していないことを確認する.
 * table_B_E58573.dbを作成
 * table_C_E58573.dbを作成
 * table_E_E58573.dbを作成
 * table_F_E58573.dbを作成
 * table_A.db, table_B.db, table_C.db, table_E.db, table_F.dbからfile_name = 'JP_PRT96.DAT', AC = 'E58573'または'E58574'のレコードを削除し、table_A_E58573.db, table_B_E58573.db, table_C_E58573.db, table_E_E58573.db, table_F_E58573.dbのレコードをコピーする.

配列番号の付け替えが行われたと考えられる、ACCESSIONがE7xxxx, E8xxxxのエントリーの新旧配列番号の対応付け
JPO送付データの対応付けが行われていなかったDDBJ release88 ACCESSION（E7xxxx - E8xxxx）について、table_E_aaのAC, SQとddbj_patのddbjAC, ddbjSQからtable_E.PNとddbj_pat.ddbjPNの対応付けを行う.

DDBJ_data.db（DDBJ release88）とtable_F.db（JPO）からACCESSIONがE7xxxx, E8xxxxであるエントリーのAC, PN, SQを出力する.

compare.pl

ACCESSION, 公開番号, 配列データからJPOエントリーとDDBJ release88エントリーの配列番号の対応付けを行った.

[[Media:Result.txt]]

上の結果から元のtable_EのレコードのPNcnvに値を入れて、新しいデータベースファイルtable_E_aa_E_updated.dbのtable_E_aaテーブルに書き出す.

select_new_updated.pl

新たに作ったtable_E_aa_E_updated.dbのtable_E_aaテーブルからtable_F_aa, table_R_aaを作成し、release88 FFと新ツールで生成したFFの差分をチェックする.

[[Media:Diff_E70000_E89999.txt]]

update_ACcnv.pl

update_jpo_entry_cnv.pl

export_jpo_entry.pl

update_new_entry.pl

compare_ddbjff.pl

split_error.pl

table_R_aa_E_updated.dbをtable_R.dbにマージし、table_R2.dbとする.

reconst_table_R_aa.pl

table_R2.dbにはまだtable_R_aaテーブルしか入っていないので、table_R.dbからtable_R2.dbにtable_R_naテーブルをコピーする.

これでDDBJ release88のすべてのACCESSIONとJPO送付データの対応付けが完了した.

上記以外の修正処理の流れ
DDBJ release88の全ACCESSIONに一対一対応するデータを格納したtable_R.db（Table-R）から、修正不要のACCESSIONに対応するデータを格納したtable_R_fix.dbと修正の必要なACCESSIONに対応するデータを格納したtable_R_for_rev.dbにデータベースを分割する. 修正作業に関するフラグ立てはtable_R_for_rev.dbから作成したtable_Rrev2.db（Table-Rrev, Table-PN）に対してCGI（view_table2.cgi）からアクセスして行う.

view_table2.cgi ";	}	$dbh->disconnect;	print $q->end_html; } 1;

sub html { print $q->header(-charset=>"utf-8"); print $q->start_html; print $q->start_form(-action=>$q->url, -method=>'post'), $q->textarea(-name=>'sql', -rows=>5, -columns=>80), $q->submit(-name=>'sqlsubmit', -value=>'submit'), $q->end_form; print " 対象テーブル一覧 "; print "table_R_aatable_R_na"; print "table_PN_aatable_PN_na"; print " SQLサンプル "; print ""; print "SQL例文"; print "定形一括処理の例</a></li>"; print "</ul>"; }

jpo_entry_cnvに対する修正が必要なフラグを立てられたレコードは、以下の処理を行ってtable_R_for_rev.db, table_Rrev2.dbを更新する.

jpo_entry_cnvの修正
この処理は修正対象によって異なる.

更新されたjpo_entry_cnvからnew_etnryを生成し、 DDBJ release88 FFとnew_entryの差分を取得してtable_R_for_rev.dbを更新
update_entry_compare.pl

table_Rrev2.dbを生成
const_table_R_rev2.pl

古いtable_Rrev2.dbから新しいtable_Rrev2.dbへフラグをコピー
update_flag.pl

生成されたtable_Rrev2.dbに対して次のフラグ立てを行う.

DE行の重複解消
一部のJPOエントリーでDE行が重複しているものがあるので、重複を取り除いたjpo_entry_cnvを生成し、table_R.dbを更新する.

この処理に関しては、以前の重複解消処理で漏れたエントリーがtable_R_fix.db中に存在するので、table_R.dbに対して処理を行い、その後table_R_fix.db, table_R_for_rev.dbを再生成する.

rm_dup_def.pl

DE行の重複していたエントリーのjpo_md5リスト
 * アミノ酸配列：[[Media:aa_md5_0.txt]]
 * 塩基配列：[[Media:na_md5_0.txt]]

この時点でE7xxxx - E8xxxxの分の対応付けができたので、table_R2.dbに対して再度重複の修正を行った.

DE行の重複していたエントリーのjpo_md5リスト（後から追加されたE7xxxx - E8xxxxの分）
 * アミノ酸配列:[[Media:Aa_md5_1.txt]]

table_R2.dbをtable_R_fix.dbとtable_R_for_rev.dbに分割する.

DE行重複の修正によって差分が解消されたためtable_R_fix.dbの方に移動してしまったレコードを、再度table_R_for_rev.dbに移動する.

reconstract_table_R_fix_and_rev.pl

table_R_for_rev.dbからtable_Rrev2.dbを生成する.

DE行の重複修正が行われたレコードはflag_DEFINITIONにフラグを立てておく.

update_flag_DEFINITION.pl

PD行の修正
COMMENT_PDが出力されているすべてのレコードのflag_COMMENT_PDに'replace'を入力し、フラグを立てたレコードの修正処理を行う.

update_COMMENT_PD.pl

OC行の修正
OC行はJPO送付ファイルでは本来未定義である. そのため、新ツールでCOMMENT-OC行が出力されないのが正しい. OS  None OC  Artificial sequences. JPO送付データが上記の場合、flag_COMMENT_OCに'CORRECT:replace OC to OS;'を入力する. フラグの立ったレコードでは、jpo_entry_cnvのOC行の内容をOS行に移動し、OC行は削除する.

以下のSQL文でview_table2.cgiからフラグを立てる. update table_R_aa set flag_COMMENT_OC = 'CORRECT:replace OC to OS;' where COMMENT_OC like 'old_COMMENT-OC_Artificial sequences._new_CO_UNDEFINED_'; update table_R_na set flag_COMMENT_OC = 'CORRECT:replace OC to OS;' where COMMENT_OC like 'old_COMMENT-OC_Artificial sequences._new_CO_UNDEFINED_';

OS  Artificial gene OC  Artificial sequence; Genes. 一方、JPO送付データが上記の場合は、flag_COMMENT_OCに'keep'を入力し、OS行の内容をそのままFFに出力させる.

以下のSQL文でview_table2.cgiからフラグを立てる. update table_R_na set flag_COMMENT_OC = 'keep' where COMMENT_OC like 'old_COMMENT-OC_Artificial sequence; Genes._new_COMMENT-OC_UNDEFINED_';

update_COMMENT_OC.pl

table_R_for_rev.db, table_Rrev2.dbの更新後、flag_COMMENT_OC, flag_COMMENT_OSに以下のSQL文でview_table2.cgiからフラグを立てる. update table_R_aa set flag_COMMENT_OC = 'keep';CORRECT:replace OC to OS;', flag_COMMENT_OS = 'keep' where flag_COMMENT_OC = 'CORRECT:replace OC to OS;'; update table_R_na set flag_COMMENT_OC = 'keep';CORRECT:replace OC to OS;', flag_COMMENT_OS = 'keep' where flag_COMMENT_OC = 'CORRECT:replace OC to OS;';

PI行の修正
新FF変換ツールでカンマの誤挿入が起こらないように、PI行を修正する. この作業は、本来は新FF変換ツールのバグによるもの以外の差分を検出するために行った.

PI  ......,○○○    ←行末がカンマでない PI  △△△,......

上のように名前が途中で改行されているものを、以下のように修正する.

PI  ......, PI  ○○○ △△△, PI  ......

update_PI.pl

jpo_entry_cnvのPI行修正後、FFを生成し、new_entry, compare, LINE-TYPE別の差分を更新し、table_Rrev2.dbを作成して旧データベースからフラグをコピーする.

PI行の修正を行ったエントリーについて、flag_COMMENT_PIに'change newline position in PI;'を追加する.

update_flag_PI.pl

E-prefixのエントリーで姓-名が現在のフォーマットとは逆になっているものについて、PI行中の氏名が全員2ワードのものは姓-名を入れ替える修正を行う.

修正対象のエントリーの公開番号リスト
 * [[File:PN_for_replace_at_REFERENCE_AUTHORS_aa.txt]]
 * [[File:PN_for_replace_at_REFERENCE_AUTHORS_na.txt]]

update_PI2.pl

PI行の修正を行ったエントリーについて、flag_COMMENT_PIに'change first and family name in PI;'を追加する.

update_flag_PI2.pl

E-prefixのエントリーで姓-名が現在のフォーマットとは逆になっているものについて、PI行中の氏名が3ワード以上のものは、名前の最初の単語を最後に移動する.

※修正対象はPN_for_replace_at_REFERENCE_AUTHORS_aa.txt, PN_for_replace_at_REFERENCE_AUTHORS_na.txtのPNリストから2ワード交換の対象外だったエントリーだけを取り出したはずだが、どうやってjpo_md5のリストを用意したのかわからなくなった.

update_PI.pl

PI行の修正に伴ってファイル出力されたjpo_entry_cnvからDDBJ FFを作成し、table_R_for_rev.db, table_Rrev2.dbを更新する.

PI行の修正を行ったエントリーについて、flag_COMMENT_PIに'exchange first and family name in PI (3 word);'を追加する.

update_flag_COMMENT_PI.pl

REFERENCE_AUTHORSの修正
以上のエントリーはflag_REFERENCE_AUTHORSに'keep'を入力する（まだやってない）.
 * 新変換ツールで作成したFFを採用するエントリーのリスト
 * [[Media:PN_for_keep_at_REFERENCE_AUTHORS_aa.txt]]
 * [[Media:PN_for_keep_at_REFERENCE_AUTHORS_na.txt]]

COMMENT-US行に差分が出るレコード
COMMENT_USカラムに値が入っているものは、旧変換プログラムがPR行の途中で改行を入れた際に新たにPRを行頭に追加せず、行頭に来た'US'をLINE TYPEと誤認したために生じたと考えられる.

そのため、COMMENT_USに値が入っているレコードは以下のSQL文でview_table2.cgiからflag_COMMENT_US, flag_COMMENT_PRに'keep'を入力する.

UPDATE table_R_aa SET flag_COMMENT_US = 'keep', flag_COMMENT_PR = 'keep' WHERE COMMENT_US IS NOT NULL; UPDATE table_R_na SET flag_COMMENT_US = 'keep', flag_COMMENT_PR = 'keep' WHERE COMMENT_US IS NOT NULL;

COMMENT-PC行に差分が出るレコード
値重複した差分が確認されるため、新型FF作成プログラムの構築で問題なし. 以下のSQL文でview_table2.cgiからフラグを立てる.

UPDATE table_R_aa SET flag_COMMENT_PC = 'keep' WHERE COMMENT_PC IS NOT NULL;

→　release88 FFで値が重複していたのは差分抽出スクリプトのバグによるもので、実際には差分なし. 以下のSQL文でview_table2.cgiからフラグを更新する.

UPDATE table_R_aa SET flag_COMMENT_PC = null WHERE flag_COMMENT_PC = 'keep';

COMMENT-PA行に差分が出るレコード
PA行はCOMMENTに表示させないため、出力なしで問題なし. 以下のSQL文でview_table2.cgiからフラグを立てる.

UPDATE table_R_na SET flag_COMMENT_PA = 'keep' WHERE COMMENT_PA IS NOT NULL;

COMMENT-FH行に差分が出るレコード
新FFの出力が正しい. 以下のSQL文でview_table2.cgiからフラグを立てる.

UPDATE table_R_na SET flag_COMMENT_FH = 'keep' WHERE COMMENT_FH IS NOT NULL;

イレギュラーなLINE-TYPE名のCOMMENT-FT行の修正
'FTMISC_FEATURE'等のイレギュラーなLINE-TYPE名になっている箇所を、FTとそれ以降に分割してFTヘッダに変更する.

update_FT.pl

出力したJPO送付ファイルからDDBJ FFを作成し、table_Rrev2.dbを更新する.

FT行の修正を行ったエントリーについて、table_Rrev2.dbのflag_COMMENT_FTに'change LINE-TYPE;'を追加する.

update_flag_FT.pl

REFERENCE-JOURNAL行に差分が出るレコード
全件不正出力であるため、新型FF作成プログラムの出力で問題なし. 以下のSQL文でview_table2.cgiからフラグを立てる.

UPDATE table_R_aa SET flag_REFERENCE_JOURNAL = 'keep' WHERE REFERENCE_JOURNAL IS NOT NULL; UPDATE table_R_na SET flag_REFERENCE_JOURNAL = 'keep' WHERE REFERENCE_JOURNAL IS NOT NULL;

REFERENCE-TITLE行に差分が出るレコード
要文字化け修正のレコード以外は問題なし. 以下のSQL文でview_table2.cgiから対象レコードにフラグを立てる.

UPDATE table_R_aa SET flag_REFERENCE_TITLE = 'keep' WHERE REFERENCE_TITLE IS NOT NULL AND (flag_DEFINITION != 'CORRECTION:revise DE' OR flag_DEFINITION IS NULL); UPDATE table_R_na SET flag_REFERENCE_TITLE = 'keep' WHERE REFERENCE_TITLE IS NOT NULL AND (flag_DEFINITION != 'CORRECTION:revise DE' OR flag_DEFINITION IS NULL);

COMMENT-PR行に差分が出るレコード
JPOデータ中のPR行が空行の場合はFFに出力されないのが正しいので、新ツールの変換で正しい. 以下のSQL文でview_table2.cgiからフラグを立てる.

update table_R_aa set flag_COMMENT_PR = 'keep' where COMMENT_PR like 'old_COMMENT-PR__new_COMMENT-PR_UNDEFINED_'; update table_R_na set flag_COMMENT_PR = 'keep' where COMMENT_PR like 'old_COMMENT-PR__new_COMMENT-PR_UNDEFINED_';

COMMENT-OS行に差分が出るレコード
塩基配列データのrelease 88で手作業で修正された分について、以下のSQL文でview_table2.cgiからフラグを立てる.

update table_R_na set flag_COMMENT_OS = 'replace' where COMMENT_OS is not null and COMMENT_OS not like 'old_COMMENT-OS_UNDEFINED_new_COMMENT-OS__' and flag_COMMENT_OS is null;

実際の修正内容

LOCUS行に差分が出るレコード
アミノ酸配列データはすべてlinear出力の差分であるため、新型FF作成プログラムの出力で問題なし. 以下のSQL文でview_table2.cgiからフラグを立てる.

update table_R_aa set flag_LOCUS = 'keep' where LOCUS is not null;

CC行の修正
COMMENT_CCに'Origiinally submitted as "xxx"'が含まれるアミノ酸配列レコードはflag_COMMENT_CCに'CORRECT:insert Originally submitted as;'を入力する.

※フラグだけ立てて修正は保留中

$ sqlite3 table_Rrev2.db "SELECT count(*) from table_R_aa where COMMENT_CC like '%Originally submitted%';" 7373 $ sqlite3 table_Rrev2.db "SELECT count(*) from table_R_na where COMMENT_CC like '%Originally submitted%';" 0

update table_R_aa set flag_COMMENT_CC = 'CORRECT:insert Originally submitted as;' where COMMENT_CC like '%Originally submitted%';

COMMENT_CCに'Originally submmitted as'の含まれないアミノ酸レコードはflag_COMMENT_CCに'keep'を入力する.

update table_R_aa set flag_COMMNET_CC = 'keep' where COMMENT_CC is not null and COMMENT_CC not like '%Originally submitted%' and COMMENT_CC not like '%UNDEFINED%';

flag_COMMENT_CCに'CORRECT:insert Originally submitted as;'を入れたエントリーにCC行の追加を行う.

update_COMMENT_CC.pl

ID行の修正
分子種がRNAに修正されているエントリーのID行を修正する.

update_ID_RNA.pl

PD行の月表記を小文字から大文字に修正
一時期、送付ファイルのPD行で月表記にアルファベットの小文字が使われていたが、現在は大文字で表記することが決まっている. これについては修正対象外のレコードが入ったtable_R_fix.dbにも該当するエントリーが含まれているため、table_R_for_rev.dbの該当するエントリーを修正するとともに、table_R_fix.dbを該当するエントリーのtable_R_fix_for_rev.dbとそれ以外のエントリーのtable_R_fix_fix.dbに分割し、table_R_fix_for_rev.dbのエントリーを修正する.

※table_R_fix.dbを分割するのは、後で修正フラグ用のテーブルを作成するため.

table_R_for_rev.dbの修正

change_PD.pl

ファイル出力したjpo_entry_cnvからDDBJ FFを作成し、table_R_for_rev.db, table_Rrev2.dbを更新する.

table_R_fix.dbの修正

change_PD.plによりtable_R_for_rev.dbと同様にtable_R_fix.dbのjpo_entry_cnvを修正する. ファイル出力したjpo_entry_cnvからDDBJ FFを作成し、table_R_for_rev.dbを更新する.

table_R_fix.dbの分割

PD行の修正の際に出力したjpo_md5により、table_R_fix.dbをtable_R_fix_fix.dbとtable_R_fix_for_rev.dbに分割する.

split_db.pl

table_R_fix_fix.dbのnew_entryを更新

table_R_for_rev.db, table_R_fix_for_rev.dbのnew_entryは新DDBJ FF作成プログラムの出力したFFに更新されているが、table_R_fix_fix.dbのnew_entryはtable_R.dbが作成された時のままであったので、table_R_fix_fix.dbのjpo_entry_cnvをファイルに出力し、新DDBJ FF作成プログラムでDDBJ FFを作成してtable_R_fix_fix.dbを更新した.

個別修正
一括して修正できないエントリーは、送付ファイルを出力して内容を手作業で変更する. 変更された送付ファイルからDDBJ FFを作成し、table_R_for_rev.db、table_Rrev2.dbを更新する. フラグの更新はCGIから行う.

aa DE  Promoter of synthetase gene of arabidopsis, delta DE  �P�\pyrroline-5-carboxylic acid
 * E82573

PT  "Promoter of synthetase gene of arabidopsis, delta PT   �P�\pyrroline-5-carboxylic acid" ↓ DE  Promoter of synthetase gene of arabidopsis, delta DE  Ppyrroline-5-carboxylic acid

PT  "Promoter of synthetase gene of arabidopsis, delta PT   Ppyrroline-5-carboxylic acid" update table_R_aa set flag_DEFINITION = 'replace' where rel88_AC = 'E82573'; update table_R_aa set flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'E82573';

DE  �������`�Q
 * E82545, E82546 (JP 2000050890-A)

PI  HOWARD KALLENDAR,LESLIE  MARIE PALMER,JASON�@CRAIG�@FEDON,ANA RISA RENOX PT  "�������`�Q" ↓ DE  gidA2

PI  howard kallendar,leslie marie palmer,jason craig fedon, ana risa renox PT  "gidA2" update table_R_aa set flag_DEFINITION = 'replace' where PN = 'JP 2000050890-A'; update table_R_aa set flag_COMMENT_PI = 'replace' where PN = 'JP 2000050890-A'; update table_R_aa set flag_REFERENCE_TITLE = 'replace' where PN = 'JP 2000050890-A';

PI  CHRITHTINE DEBOUCK,DANIEL R GENTLY,JOHN T RONZUDEIRU,JEFFREY L MUNI, PI  DAVID J PEIN,STUART C PEISON,LISA K SCHILLING,GREN�@VAN ALLAH,MING HWANG, PI  I I TWON ↓ PI  CHRITHTINE DEBOUCK,DANIEL R GENTLY,JOHN T RONZUDEIRU,JEFFREY L MUNI, PI  DAVID J PEIN,STUART C PEISON,LISA K SCHILLING,GREN VAN ALLAH,MING HWANG, PI  I I TWON update table_R_aa set flag_COMMENT_PI = 'replace' where rel88_AC = 'E82465';
 * E82465

PI  STACKER STEVEN ALEN,WILKES ANDREW FREDERIC ?@ ↓ PI  STACKER STEVEN ALEN,WILKES ANDREW FREDERIC update table_R_aa set flag_COMMENT_PI = 'replace' where PN = 'JP 2000046833-A';
 * E82484 - E82499

PI  SYUJIAN U,RAYMOND W SWEET,ALEMSEGED TRUNEH ↓ PI  U SYUJIAN,RAYMOND W SWEET,ALEMSEGED TRUNEH update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 1999206391-A'; update table_R_aa set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 1999206391-A';
 * E76569 - E76574

PI  SOUZA LAWRENCE M　　　　↓ PI  LAWRENCE M SOUZA update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 1999276168-A';
 * E78120 - E78121

PI  DEICHI ROBERT A,JIROT ONIKKU GARI,GREEN BRUCE ↓ PI  ROBERT A DEICHI,JIROT ONIKKU GARI,GREEN BRUCE update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 1998057059-A'; update table_R_aa set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 1998057059-A';
 * DD918527 - DD918537

PI  AMITEIJI RICHARD J,FANSUROU WILLIAM C,SUPURIGGUSU MERANI K, PI   SURINIVASSAN SABUHASSINI ↓ PI  RICHARD J AMITEIJI,WILLIAM C FANSUROU,MERANI K SUPURIGGUSU, PI  SURINIVASSAN SABUHASSINI update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 1998150994-A'; update table_R_aa set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 1998150994-A';
 * DD917899 - DD917906

PI  MICHAEL J,WILSON BAGASU,THOMAS MASHIA,WILLIAM DOROHAN ↓ PI  J MICHAEL,WILSON BAGASU,THOMAS MASHIA,WILLIAM DOROHAN update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 1998175999-A';
 * DD918711 - DD918714

PI  BUSUROIDO JOHN C,BURG JAMES L,KASUPA LIOYD H　　　　↓ PI  JOHN C BUSUROIDO,JAMES L BURG,LIOYD H KASUPA update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 1998210991-A'; update table_R_aa set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 1998210991-A';
 * DD918749

PI  ruiken george a　　　　↓ PI  george a ruiken update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2004527299-A'; update table_R_aa set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 2004527299-A';
 * BD788284 - BD788295

PI  robey peter e　　　　↓ PI  peter e robey update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2008525479-A'; update table_R_aa set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 2008525479-A';
 * DD807300 - DD807310

PI  larry benowittsu i,jens yukin ↓ PI  benowittsu i larry,jens yukin update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2009536950-A'; update table_R_aa set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 2009536950-A';
 * DD952823

PI  shapu john c,johnston steven albert,uddoberi neil,dieneruto chris w, PI   yang hao ↓ PI  john c shapu,johnston steven albert,uddoberi neil,chris w dieneruto, PI  yang hao update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2010507099-A'; update table_R_aa set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 2010507099-A';
 * DD991999 - DD992027

PA  RIKEN PI  satoshi karasawa,atsushi miyawaki,hidekazu tsutsui, PI  medical and biological laboratories co ltd ↓ PA  RIKEN PI  satoshi karasawa,atsushi miyawaki,hidekazu tsutsui PA  medical and biological laboratories co ltd update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;', flag_COMMENT_PA = 'CORRECTION:PA line addition;' where PN = 'WO 2004111236-A';
 * BD793915 - BD793920

PI  sukumoruto hans-uritchi,bonrein ernst,kollmar harald, PI  wentsuru alexander shuichi nakatsuru, PI  yoichi furukawa,yusuke nakamura ↓ PI  sukumoruto hans-uritchi,bonrein ernst,kollmar harald, PI  wentsuru alexander,shuichi nakatsuru, PI  yoichi furukawa,yusuke nakamura update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2008530974-A';
 * DD826639

PI  naoko nishizawa,satoshi mori,takanori kobayashi, PI  yuko kosato kunihiko kodaira, PI  shohei kishige,satoshi katayama,shin sadamitsu, PI  yoshitomo takagi,koki matsuda ↓ PI  naoko nishizawa,satoshi mori,takanori kobayashi, PI  yuko kosato,kunihiko kodaira, PI  shohei kishige,satoshi katayama,shin sadamitsu, PI  yoshitomo takagi,koki matsuda update table_R_aa set flag_COMMENT_PI = 'change newline position in PI;CORRECTION:PI name;' where PN = 'WO 2008136398-A';
 * DD845092

PI  tetsuya sasaki,naoko hara, PI  makoto ishikawa kiyotaka nakano ↓ PI  tetsuya sasaki,naoko hara, PI  makoto ishikawa,kiyotaka nakano update table_R_aa set flag_COMMENT_PI = 'change newline position in PI;CORRECTION:PI name;' where PN = 'WO 2009004822-A';
 * DD858430

PI  SHIGETADA NAKANISHI, YUTAKA TERANISHI, TATSURO SHIBUI, TAMOTSU NIKI ↓ PI  shigetada nakanishi,yutaka teranishi,tatsuro shibui,tamotsu niki update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;exchange first and family name in PI;' where PN = 'JP 1986282318-A'; update table_R_aa set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 1986282318-A';
 * E55139

PI  KIYOBUMI ISHIKAWA, TAKEHIRO FUKAMI, TAKASHI HAYAMA, KENJI NIIYAMA, PI  TOSHIO NAGASE, TOSHIAKI MASE, KAGARI FUJITA, MASARU NISHIKIBE, PI  MASAKI IHARA, MITSUO YANO ↓ PI  kiyobumi ishikawa,takehiro fukami,takashi hayama,kenji niiyama, PI  toshio nagase,toshiaki mase,kagari fujita,masaru nishikibe, PI  masaki ihara,mitsuo yano update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;exchange first and family name in PI;' where PN = 'JP 1992261198-A';
 * E52399 - E52438

PI  INOUE MASAYORI, KENZO NAKAMURA, YOSHIHIRO MASUI ↓ PI  masayori inoue,kenzo nakamura,yoshihiro masui update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;exchange first and family name in PI;' where PN = 'JP 1984051793-A';
 * E54513

PI  GAKUNAN GEN, TAKESHI IHARA, SUSUMU UEDA ↓ PI  gakunan gen,takeshi ihara,susumu ueda update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;exchange first and family name in PI;' where PN = 'JP 1993262791-A'; update table_R_aa set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 1993262791-A';
 * E53405

PI  KENZO NAKAMURA, INOUE MASAYORI ↓ PI  kenzo nakamura,masayori inoue update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;exchange first and family name in PI;' where PN = 'JP 1982140800-A';
 * E54420

PI  SYUJIAN U,RAYMOND W SWEET,ALEMSEGED TRUNEH ↓ PI  U SYUJIAN,RAYMOND W SWEET,ALEMSEGED TRUNEH update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 1999151094-A'; update table_R_aa set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 1999151094-A';
 * E75954 - E75960

PI  SYUJIAN U,RAYMOND W SWEET,ALEMSEGED TRUNEH,MARK ROBERT HAAR ↓ PI  U SYUJIAN,RAYMOND W SWEET,ALEMSEGED TRUNEH,MARK ROBERT HAAR update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 1999225774-A'; update table_R_aa set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 1999225774-A';
 * E75940 - E75951

PI  BARNES UEIN M　　　　↓ PI  UEIN M BARNES update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 1999239492-A';
 * E77239 - E77247

PI  BATORE TIMOTHY D,BOGENBAGA JACOB M,BOTUSERUMAN ROBERT A,HUNT PAMERA, PI  KINSUTORA OAFU B,SAMARU BABURU B　　　　↓ PI  TIMOTHY D BATORE,JACOB M BOGENBAGA,ROBERT A BOTUSERUMAN,HUNT PAMERA, PI  OAFU B KINSUTORA,BABURU B SAMARU update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2000103799-A'; update table_R_aa set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 2000103799-A';
 * E80759 - E80768

PI  DAVIES MARK M,HEDORIKKU STEVEN M　　　　↓ PI  MARK M DAVIES,STEVEN M HEDORIKKU update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 1999046779-A';
 * E87563 - E87563

PI  vincent john b,minasshian baji a　　　　↓ PI  john b vincent,baji a minasshian update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2008505608-A';
 * DD690355 - DD690357

PI  YOSHIFUMI ITO,SUN MUN PARK,CHON NAMU HAI ↓ PI  YOSHIFUMI ITO,SUN MUN PARK,TRUONG NAM HAI OS  Oryza sative L. (rice) ↓ OS  Oryza sativa L. (rice) update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 1999299488-A'; update table_R_aa set flag_COMMENT_OS = 'keep;replace species name;' where rel88_AC = 'E75309';
 * E75309

PI  YOSHIE TACHIBANA,NAOKI SHIROSAKA,AKIKO KURAMURA,SHINSUKE FUJIWARA, PI  MASAHIRO TAKAGI,TADAYUKI IMANAKA ↓ PI  YOSHIHISA TACHIBANA,NAOKI SHIROSAKA,AKIKO KURAMURA,SHINSUKE FUJIWARA, PI  MASAHIRO TAKAGI,TADAYUKI IMANAKA update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2000014384-A';
 * E74915, E74916

PI  SHIGEO YAMAGUCHI,TADAO IMAI ↓ PI  SHIGEO YAMAGUCHI,TADAO IMADA update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2001017178-A';
 * E82533, E82534

PI  NARUTO NANBA,MASASHI UGAKI,SHINICHI MIYATA,AKIO OSHIMA,SHOJI NISHIKAWA, PI  SHIGEYUKI KAKIZAWA ↓ PI  SHIGETOU NAMBA,MASASHI UGAKI,SHINICHI MIYATA,KENRO OSHIMA, PI  HISASHI NISHIGAWA,SHIGEYUKI KAKIZAWA update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2001281254-A'; update table_R_aa set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 2001281254-A';
 * BD519367 - BD519370

PI  PANTALEONE PAUL MASCI,MARTIN FRANCIS LAVIN,PATRICK JOSEPH GAFFNEY ↓ PI  PANTALEONE PAUL MASCI,MARTIN FRANCIS LAVIN,PATRICK JOSEPH GAFFNEY, PI  Natasha Igor Sorokina,Igor Vladimir Filippovitch update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2002514404-A';
 * BD610190 - BD610217

PI  TOSHIO OTA,TAKAO ISOGAI,TETSUO NISHIKAWA,KOJI HAYASHI,KAORU SAITO, PI  JUNICHI YAMAMOTO,SHIZUKO ISHII,TOMOYASU SUGIYAMA,AI WAKAMATSU, PI  KEIICHI NAGAI,TETSUJI OTSUKI,SHINICHI FUNAHASHI,SHOJI MIYATA ↓ PI  TOSHIO OTA,TAKAO ISOGAI,TETSUO NISHIKAWA,KOJI HAYASHI,KAORU SAITO, PI  JUNICHI YAMAMOTO,SHIZUKO ISHII,TOMOYASU SUGIYAMA,AI WAKAMATSU, PI  KEIICHI NAGAI,TETSUJI OTSUKI,SHINICHI FUNAHASHI,SHOJI MIYATA, PI  KENJI SOBUE,KENICHIRO HAYASHI update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'WO 0109315-A';
 * BD506353 - BD506356

PI  nishimura michael i,rosen hugo r　　　　↓ PI  michael i nishimura,hugo r rosen update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2009515534-A';
 * DD900149 - DD900165

PI  stuart dorsey w,kambareri edward b　　　　↓ PI  dorsey w stuart,edward b kambareri update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2008516609-A';
 * DD760066 - DD760068

PI  RAYMOND W SWEET,ALEMSEGED TRUNEH,SYUJIAN U　　　　↓ PI  RAYMOND W SWEET,ALEMSEGED TRUNEH,U SYUJIAN update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 1999215989-A';
 * E76616 - E76623

PI  small kersten m,liggett stephen b　　　　↓ PI  kersten m small,stephen b liggett update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2006515164-A';
 * E76616 - E76623

PI  NIELSEN PATER A,BUSHATO ORE,EHORUMU MISHAEL,BERG RORUFU HO　　　　↓ PI  PATER A NIELSEN,BUSHATO ORE,EHORUMU MISHAEL,BERG RORUFU HO update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 1999310593-A';
 * E78583 - E78586, E78592, E78599, E78600, E78602, E78604 - E78606

PI  haton jonathan a,bedoya felipe,sandler laurel l　　　　↓ PI  jonathan a haton,bedoya felipe,laurel l sandler update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2008538285-A';
 * DD849151

na DE  Shear stress-responsive DNAs ↓ DE  RECS1 (responsive to centrifugal force and shear stress gene 1) update table_R_na set flag_DEFINITION = 'replace' where rel88_AC = 'BD094043';
 * BD094043

CC ↓ CC  cDNA clone Rt-5 update table_R_na set flag_COMMENT_CC = 'replace' where rel88_AC = 'BD063210';
 * BD063210

CC ↓ CC  cDNA clone Rt-6 update table_R_na set flag_COMMENT_CC = 'replace' where rel88_AC = 'BD063211';
 * BD063211

CC ↓ CC  cDNA clone Rt-17 update table_R_na set flag_COMMENT_CC = 'replace' where rel88_AC = 'BD063212';
 * BD063212

XX SQ  Sequence xxx BP; ↓ XX CC  Patil,J.G., Grewe,P.M., and Thresher,R.E. CC   GENETIC CONTROL OF SEX RATIO IN ANIMAL POPULATIONS CC  Published Only in Database(2006) XX SQ  Sequence xxx BP; update table_R_na set flag_COMMENT_CC = 'replace' where rel88_AC = 'DD017305'; update table_R_na set flag_COMMENT_CC = 'replace' where rel88_AC = 'DD017306'; update table_R_na set flag_COMMENT_CC = 'replace' where rel88_AC = 'DD017307'; update table_R_na set flag_COMMENT_CC = 'replace' where rel88_AC = 'DD017308'; update table_R_na set flag_COMMENT_CC = 'replace' where rel88_AC = 'DD017309'; update table_R_na set flag_COMMENT_CC = 'replace' where rel88_AC like 'DD01731%'; update table_R_na set flag_COMMENT_CC = 'replace' where rel88_AC = 'DD017320';
 * DD017305 - DD017320

FT  CDS             (1)..(35) ↓ FT  CDS             (1)..(33) update table_R_na set flag_COMMENT_FT = 'replace' where rel88_AC = 'DD274551';
 * DD274551

FT                  /product="C-terminal fragment of improved human                     Interleukin 3" ↓ FT                  /product="C-terminal fragment of improved human FT                   Interleukin 3" update table_R_na set flag_COMMENT_FT = 'CORRECTION;add FT header;' where rel88_AC = 'E03385';
 * E03385

FT  CDS             389..2209 ↓ FT  CDS             389..2249 update table_R_na set flag_COMMENT_FT = 'replace' where rel88_AC = 'E29513';
 * E29513

FT  CDS             1..240 ↓ FT  CDS             1..239 update table_R_na set flag_COMMENT_FT = 'replace' where rel88_AC = 'E37763';
 * E37763

FT  CDS             (1)..(1548) ↓ FT  CDS             (1)..(1500) update table_R_na set flag_COMMENT_FT = 'replace' where rel88_AC = 'E38847';
 * E38847

OS  Oryza sative L. (rice)
 * E31863 - E31867

FT                  /organism="Oryza sative L. (rice)" ↓ OS  Oryza sativa L. (rice)

FT                  /organism="Oryza sativa L. (rice)" update table_R_na set flag_COMMENT_FT = 'replace' where rel88_AC = 'E31863'; update table_R_na set flag_COMMENT_FT = 'replace' where rel88_AC = 'E31864'; update table_R_na set flag_COMMENT_FT = 'replace' where rel88_AC = 'E31865'; update table_R_na set flag_COMMENT_FT = 'replace' where rel88_AC = 'E31866'; update table_R_na set flag_COMMENT_FT = 'replace' where rel88_AC = 'E31867'; ※flag_COMMENT_OSにはreplaceフラグを設定済みなので、OS行はjpo_entry_cnvの修正のみ.

DE  A nobel transposon-like element
 * DD135910 - DD135936

PT  "A nobel transposon-like element" ↓ DE  A novel transposon-like element

PT  "A novel transposon-like element" update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC like 'DD13591%'; update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC like 'DD13592%'; update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'DD135930'; update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'DD135931'; update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'DD135932'; update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'DD135933'; update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'DD135934'; update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'DD135935'; update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'DD135936';

DE  �������`�Q
 * DD273238 - DD273241

PT  "�������`�Q" ↓ DE  gidA2

PT  "gidA2" update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'DD273238'; update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'DD273239'; update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'DD273240'; update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'DD273241';

DE  �P�\pyrroline-5-carboxylic acid
 * DD273375

PT  �P�\pyrroline-5-carboxylic acid"　　　　↓ DE   Ppyrroline-5-carboxylic acid

PT  Ppyrroline-5-carboxylic acid" update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'DD273375';

DE  A gene encoding a novel aceto lactate sythetase
 * DD438064 - DD438087

PT  "A gene encoding a novel aceto lactate sythetase" ↓ DE  A gene encoding a novel aceto lactate synthetase

PT  "A gene encoding a novel aceto lactate synthetase" update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'DD438064'; update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'DD438065'; update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'DD438066'; update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'DD438067'; update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'DD438068'; update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'DD438069'; update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC like 'DD43807%'; update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'DD438080'; update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'DD438081'; update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'DD438082'; update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'DD438083'; update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'DD438084'; update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'DD438085'; update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'DD438086'; update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'DD438087';

DE  DNA sequence of synthetic oligomer of human inteferon beta signal ↓ DE  DNA sequence of synthetic oligomer of human interferon beta signal update table_R_na set flag_DEFINITION = 'replace' where rel88_AC = 'E00716';
 * E00716

DE  DNA fragment,PARS1 comprising autonomous replication sequence of pitchia ↓ DE  DNA fragment,PARS1 comprising autonomous replication sequence of pichia update table_R_na set flag_DEFINITION = 'replace' where rel88_AC = 'E00830'; update table_R_na set flag_DEFINITION = 'replace' where rel88_AC = 'E00831';
 * E00830, E00831

DE  RNA sequence of campylobacter jejuni 16S rRNA ↓ DE  RNA sequence of campylobacter jejuni 16S rRNA, partial update table_R_na set flag_DEFINITION = 'CORRECTION;Add ", partial";' where rel88_AC = 'E01336'; update table_R_na set flag_DEFINITION = 'CORRECTION;Add ", partial";' where rel88_AC = 'E01337';
 * E01336, E01337

DE  Heparin sulfate 6-0 sulfotransferase polypeptide and DNA encoding the DE  same ↓ DE  DNA encoding heparan sulfate 2-O sulfotransferase update table_R_na set flag_DEFINITION = 'replace' where rel88_AC = 'E26630'; update table_R_na set flag_DEFINITION = 'replace' where rel88_AC = 'E26631';
 * E26630, E26631

DE  Hyperthermophilic cylcodextrin synthase gene
 * E30964

PT  "Hyperthermophilic cylcodextrin synthase gene" ↓ DE  16S rRNA gene of Thermococcus sp.

PT  "Hyperthermophilic cyclodextrin synthase gene" update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'E30964';

DE  Hyperthermophilic cylcodextrin synthase gene
 * E30965 - E30968

PT  "Hyperthermophilic cylcodextrin synthase gene" ↓ DE  Hyperthermophilic cyclodextrin synthase gene

PT  "Hyperthermophilic cyclodextrin synthase gene" update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'E30965'; update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'E30966'; update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'E30967'; update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'E30968';

PI  TAKESHI YANAGISAWA, SHINICHI TOMINAGA ↓ PI  KEN YANAGISAWA, SHINICHI TOMINAGA update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;exchange first and family name in PI;' where PN = 'JP 1995031479-A';
 * E08652 - E08654

PI  YOSHIFUMI ITO,SUN MUN PARK,CHON NAMU HAI ↓ PI  YOSHIFUMI ITO,SUN MUN PARK,TRUONG NAM HAI update table_R_na set flag_COMMENT_PI = 'replace' where PN = 'JP 1999299488-A';
 * E31863 - E31867

PI  YOSHIE TACHIBANA,NAOKI SHIROSAKA,AKIKO KURAMURA,SHINSUKE FUJIWARA, PI  MASAHIRO TAKAGI,TADAYUKI IMANAKA ↓ PI  YOSHIHISA TACHIBANA,NAOKI SHIROSAKA,AKIKO KURAMURA,SHINSUKE FUJIWARA, PI  MASAHIRO TAKAGI,TADAYUKI IMANAKA update table_R_na set flag_COMMENT_PI = 'replace' where PN = 'JP 2000014384-A';
 * E30964 - E30968

PI  STACKER STEVEN ALEN,WILKES ANDREW FREDERIC ?@ ↓ PI  STACKER STEVEN ALEN,WILKES ANDREW FREDERIC update table_R_na set flag_COMMENT_PI = 'replace' where PN = 'JP 2000046833-A';
 * DD273090 - DD273096

PI  HOWARD KALLENDAR,LESLIE  MARIE PALMER,JASON?@CRAIG?@FEDON,ANA RISA RENOX ↓ PI  HOWARD KALLENDAR,LESLIE  MARIE PALMER,JASON CRAIG FEDON,ANA RISA RENOX update table_R_na set flag_COMMENT_PI = 'replace' where PN = 'JP 2000050890-A';
 * DD273238 - DD273241

PI  CHRITHTINE DEBOUCK,DANIEL R GENTLY,JOHN T RONZUDEIRU,JEFFREY L MUNI, PI  DAVID J PEIN,STUART C PEISON,LISA K SCHILLING,GREN?@VAN ALLAH,MING HWANG, PI  I I TWON ↓ PI  CHRITHTINE DEBOUCK,DANIEL R GENTLY,JOHN T RONZUDEIRU,JEFFREY L MUNI, PI  DAVID J PEIN,STUART C PEISON,LISA K SCHILLING,GRENVAN ALLAH,MING HWANG, PI  I I TWON update table_R_na set flag_COMMENT_PI = 'replace' where PN = 'JP 2000139475-A';
 * DD273070

PI  SHIGEO YAMAGUCHI,TADAO IMAI ↓ PI  SHIGEO YAMAGUCHI,TADAO IMADA update table_R_na set flag_COMMENT_PI = 'replace' where rel88_AC = 'DD273157'; update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where rel88_AC = 'DD273158'; update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where rel88_AC = 'DD273159';
 * DD273158, DD273159

PI  NARUTO NANBA,MASASHI UGAKI,SHINICHI MIYATA,AKIO OSHIMA,SHOJI NISHIKAWA, PI  SHIGEYUKI KAKIZAWA ↓ PI  SHIGETOU NAMBA,MASASHI UGAKI,SHINICHI MIYATA,KENRO OSHIMA, PI  HISASHI NISHIGAWA,SHIGEYUKI KAKIZAWA update table_R_na set flag_COMMENT_PI = 'replace' where PN = 'JP 2001281254-A';
 * BD061589, BD061590

PI  NOZOMI SATO,KOJI NAGASHIMA ↓ PI  MAREMI SATO,KOJI NAGASHIMA update table_R_na set flag_COMMENT_PI = 'replace' where PN = 'JP 2001321184-A';
 * BD085533 - BD085543

PI  NORIMICHI KAWASE,KEISUKE KUROSAKA ↓ PI  SHIDO KAWASE,KEISUKE KUROSAKA update table_R_na set flag_COMMENT_PI = 'replace' where PN = 'JP 2002209582-A';
 * BD166427 - BD166430

PI  SATOSHI NARAOKA,JUNJI ICHIDA,HIDEMITSU UCHIZAWA,HAJIME MATSUE, PI  TADAYOSHI TSUKITA,KIMIKO HARADA,HIROSHI ISHII,KAZUTAKA MARUYAMA ↓ PI  TETSUSHI NARAOKA,JUNJI ICHIDA,HIDEMITSU UCHISAWA, HAJIME MATSUE, PI  MASAYOSHI TSUKUDA,KIMIKO HARADA,YUTAKA ISHII, KAZUTAKA MARUYAMA update table_R_na set flag_COMMENT_PI = 'replace' where PN = 'JP 2002253208-A';
 * BD174533 - BD174535

PI  PANTALEONE PAUL MASCI,MARTIN FRANCIS LAVIN,PATRICK JOSEPH GAFFNEY ↓ PI  PANTALEONE PAUL MASCI,MARTIN FRANCIS LAVIN,PATRICK JOSEPH GAFFNEY, PI  Natasha Igor Sorokina,Igor Vladimir Filippovitch update table_R_na set flag_COMMENT_PI = 'replace' where PN = 'JP 2002514404-A';
 * BD227010

PI  HONG ZENG,GURUCHARAN REDDY,ANNE BALARGA,DAVID A ZARLING ↓ PI  HONG ZENG,GURUCHARAN REDDY,ANNE VALLERGA,DAVID A ZARLING update table_R_na set flag_COMMENT_PI = 'replace' where PN = 'JP 2002536420-A';
 * BD271098 - BD271107

PI  alexander terrence pfeffer,charles bicks shewmaker ↓ PI  alexander terrence pfeffer,charles bix shoemaker update table_R_na set flag_COMMENT_PI = 'replace' where PN = 'JP 2003530840-A';
 * BD404785

PI  joa patil,peter guryui,ronald suresha,lin haines ↓ PI  ronald e thresher,peter grewe,jawahar patil,lyn hinds update table_R_na set flag_COMMENT_PI = 'CORRECTION:change PI name;' where PN = 'JP 2004511226-A';
 * DD017305 - DD017320

PI  yoritsune tomita ↓ PI  motonori tomita update table_R_na set flag_COMMENT_PI = 'replace' where PN = 'JP 2005073561-A';
 * DD135910 - DD135936

PI  bruce livett,zeinab khalil,kenwyn gayler,john down,david william sandoru, PI  david anthony caius ↓ PI  bruce livett,zeinab khalil,kenwyn gayler,john down,david william sandall, PI  david anthony keays update table_R_na set flag_COMMENT_PI = 'replace' where PN = 'JP 2005500017-A';
 * DD122895 - DD1122897

PI  christine j morrison,hans peter hinrikuson ↓ PI  christine j morrison,hans peter hinrikson update table_R_na set flag_COMMENT_PI = 'replace' where PN = 'JP 2005529594-A';
 * DD251162 - DD251228

PI  TOSHIO OTA,TAKAO ISOGAI,TETSUO NISHIKAWA,KOJI HAYASHI,KAORU SAITO, PI  JUNICHI YAMAMOTO,SHIZUKO ISHII,TOMOYASU SUGIYAMA,AI WAKAMATSU, PI  KEIICHI NAGAI,TETSUJI OTSUKI,SHINICHI FUNAHASHI,SHOJI MIYATA ↓ PI  TOSHIO OTA,TAKAO ISOGAI,TETSUO NISHIKAWA,KOJI HAYASHI,KAORU SAITO, PI  JUNICHI YAMAMOTO,SHIZUKO ISHII,TOMOYASU SUGIYAMA,AI WAKAMATSU, PI  KEIICHI NAGAI,TETSUJI OTSUKI,SHINICHI FUNAHASHI,SHOJI MIYATA, PI  KENJI SOBUE,KENICHIRO HAYASHI update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'WO 0109315-A';
 * BD012189 - BD012202

PI  hiroshi kikuchi,terumichi tanaka,hajime umekage,hiromichi suzuki, PI  kuninori sato ↓ PI  yo kikuchi,terumichi tanaka,so umekage,hiromichi suzuki, PI  kuninori sato update table_R_na set flag_COMMENT_PI = 'replace' where PN = 'WO 2009063969-A';
 * DM191197 - DM191212

PI  WEST MICHEL D,J JELLY,WRIGHT WOODRING,BRACKBARN ELIZABETH H　　　　↓ PI  MICHEL D WEST,J JELLY,WRIGHT WOODRING,ELIZABETH H BRACKBARN update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 1999123100-A'; update table_R_na set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 1999123100-A';
 * E32463 - E32469

PI  WEST MICHEL D,J JELLY,WRIGHT WOODRING,BRACKBARN ELIZABETH H　　　　↓ PI  MICHEL D WEST,J JELLY,WRIGHT WOODRING,ELIZABETH H BRACKBARN update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 1999127874-A'; update table_R_na set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 1999127874-A';
 * E32712 - E32718

PI  SYUJIAN U,RAYMOND W SWEET,ALEMSEGED TRUNEH ↓ PI  U SYUJIAN,RAYMOND W SWEET,ALEMSEGED TRUNEH update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 1999151094-A'; update table_R_na set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 1999151094-A';
 * E33200, E33201

PI  SYUJIAN U,RAYMOND W SWEET,ALEMSEGED TRUNEH ↓ PI  U SYUJIAN,RAYMOND W SWEET,ALEMSEGED TRUNEH update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 1999206391-A'; update table_R_na set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 1999206391-A';
 * E34515, E34516

PI  SYUJIAN U,RAYMOND W SWEET,ALEMSEGED TRUNEH,MARK ROBERT HAAR ↓ PI  U SYUJIAN,RAYMOND W SWEET,ALEMSEGED TRUNEH,MARK ROBERT HAAR update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 1999225774-A'; update table_R_na set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 1999225774-A';
 * E33186, E33187

PI  BARNES UEIN M　　　　↓ PI  UEIN M BARNES update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 1999239492-A';
 * E36446 - E36471

PI  SOUZA LAWRENCE M　　　　↓ PI  LAWRENCE M SOUZA update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 1999276168-A';
 * E37811, E37812

PI  BATORE TIMOTHY D,BOGENBAGA JACOB M,BOTUSERUMAN ROBERT A,HUNT PAMERA, PI  KINSUTORA OAFU B,SAMARU BABURU B　　　　↓ PI  TIMOTHY D BATORE,JACOB M BOGENBAGA,ROBERT A BOTUSERUMAN,HUNT PAMERA, PI  OAFU B KINSUTORA,BABURU B SAMARU update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2000103799-A'; update table_R_na set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 2000103799-A';
 * E46843 - E46869

PI  WEST MICHEL D,J JELLY,WRIGHT WOODRING,BRACKBARN ELIZABETH H　　　　↓ PI  MICHEL D WEST,J JELLY,WRIGHT WOODRING,ELIZABETH H BRACKBARN update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2000116388-A'; update table_R_na set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 2000116388-A';
 * E43454 - E43460

PI  JAMES LALLY C,SUTORIKKU CHRISTINE A　　　　↓ PI  LALLY C JAMES,CHRISTINE A SUTORIKKU update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2000116392-A'; update table_R_na set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 2000116392-A';
 * E43895 - E43914

PI  MONIA BURETTO P,BOGGUZU RUSSELL T　　　　↓ PI  BURETTO P MONIA,RUSSELL T BOGGUZU update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2000152797-A'; update table_R_na set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 2000152797-A';
 * E49511 - E49549

PI  DEICHI ROBERT A,JIROT ONIKKU GARI,GREEN BRUCE ↓ PI  ROBERT A DEICHI,JIROT ONIKKU GARI,GREEN BRUCE update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 1998057059-A'; update table_R_na set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 1998057059-A';
 * DM377756 - DM377760

PI  PERKINS JOHN B,PERO JANICE G,SUROMA ALAN ↓ PI  JOHN B PERKINS,JANICE G PERO,SUROMA ALAN update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 1998066562-A'; update table_R_na set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 1998066562-A';
 * DM378903 - DM378911

PI  DAVIES MARK M,HEDORIKKU STEVEN M　　　　↓ PI  MARK M DAVIES,STEVEN M HEDORIKKU update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 1999046779-A';
 * DD277113 - DD277117

PI  oribiera basuko a m,krzysztof paurousuki,john c reed,frederick f pio, PI  adam gojikku,christian shuteriku,damiano jason s,sug hyung lee, PI  hideki hayashi ↓ PI  basuko a m oribiera,krzysztof paurousuki,john c reed,frederick f pio, PI  adam gojikku,christian shuteriku,jason s damiano,sug hyung lee, PI  hideki hayash update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2003533997-A'; update table_R_na set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 2003533997-A';
 * DJ389174 - DJ389229

PI  buredesen dale e,garuvan veronica ↓ PI  dale e buredesen,garuvan veronica update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2007534323-A'; update table_R_na set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 2007534323-A';
 * DJ445770 - DJ445773

PI  vincent john b,minasshian baji a　　　　↓ PI  john b vincent,baji a minasshian update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2008505608-A'; update table_R_na set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 2008505608-A';
 * DL143647 - DL143672

PI  gordon james d　　　　↓ PI  james d gordon update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2008507955-A'; update table_R_na set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 2008507955-A';
 * DL189492 - DL189516

PI  kiruyanofu andrei a,jones benjamin,karudo stephen w　　　　↓ PI  andrei a kiruyanofu,jones benjamin,stephen w karudo update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2009534310-A'; update table_R_na set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 2009534310-A';
 * FU262935, FU262936

PI  MAKOTO OKAZAKI, ATSUSHI TAKESHITA, SHINJI KAWAI, REIKO KIKUNO, EGON AMAN ↓ PI  makoto okazaki,atsushi takeshita,shinji kawai,reiko kikuno,egon aman update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;exchange first and family name in PI;' where PN = 'JP 1994256210-A'; update table_R_na set flag_REFERENCE_AUTHORS = 'keep' where rel88_AC = 'E08146'; ※E08146のみ、REFERENCE 2の追加処理の際にAUTHORS行の修正を誤っているために差分が発生している.
 * E08146 - E08150

PI  AMITEIJI RICHARD J,FANSUROU WILLIAM C,SUPURIGGUSU MERANI K, PI   SURINIVASSAN SABUHASSINI ↓ PI  RICHARD J AMITEIJI,WILLIAM C FANSUROU,MERANI K SUPURIGGUSU, PI  SURINIVASSAN SABUHASSINI update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 1998150994-A'; update table_R_na set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 1998150994-A';
 * DM379740 - DM379742

PI  BUSUROIDO JOHN C,BURG JAMES L,KASUPA LIOYD H　　　　↓ PI  JOHN C BUSUROIDO,JAMES L BURG,LIOYD H KASUPA update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 1998210991-A'; update table_R_na set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 1998210991-A';
 * DM380984, DM380985

PI  robey peter e　　　　↓ PI  peter e robey update table_R_aa set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2008525479-A'; update table_R_na set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 2008525479-A';
 * DM026232 - DM026266

PI  shapu john c,johnston steven albert,uddoberi neil,dieneruto chris w, PI   yang hao ↓ PI  john c shapu,johnston steven albert,uddoberi neil,chris w dieneruto, PI  yang hao update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2010507099-A'; update table_R_na set flag_REFERENCE_AUTHORS = 'keep' where PN = 'JP 2010507099-A';
 * FW361952 - FW361956

PI  INOUE MASAYORI, KENZO NAKAMURA, YOSHIHIRO MASUI ↓ PI  masayori inoue,kenzo nakamura,yoshihiro masui update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;exchange first and family name in PI;' where PN = 'JP 1984051793-A';
 * E00181, E00182

PI  KENZO NAKAMURA, INOUE MASAYORI ↓ PI  kenzo nakamura,masayori inoue update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;exchange first and family name in PI;' where PN = 'JP 1982140800-A';
 * E00041

DE  Attenuated pigeon anemia virus PT  "Attenuated pigeon anemia virus" ↓ DE  Attenuated chicken anemia virus PT  "Attenuated chicken anemia virus" update table_R_na set flag_DEFINITION = 'replace', flag_REFERENCE_TITLE = 'replace' where rel88_AC = 'DD273157';
 * DD273157

PI  fan yun t　　　　↓ PI  t fan yun update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2005501520-A';
 * DD135701, DD135702

PI  stuart andrew f　　　　↓ PI  andrew f stuart update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2005525312-A';
 * DD230143 - DD230145

PI  jiahu eileen k　　　　↓ PI  eileen k jiahu update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2008546389-A';
 * DM140538 - DM140539

PI  quinn timothy p　　　　↓ PI  timothy p quinn update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2009505989-A';
 * DM165768 - DM165791

PI  rasangu nicholas b,fozeringamu susan ↓ PI  nicholas b rasangu,fozeringamu susan update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2009531051-A';
 * FU263158 - FU263178

PI  russell james a,worley keith r　　　　↓ PI  james a russell,keith r worley update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2005527218-A'; update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2006520199-A'; update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2007525980-A';
 * DD246548 - DD246558, DD434054 - DD434064, DJ360250 - DJ360252

PI  wallace douglas c,kosukan pina e　　　　↓ PI  douglas c wallace,pina e kosukan update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2008500058-A';
 * DL080878 - DL080881

PI  welch richard e,pairon april l　　　　↓ PI  richard e welch,april l pairon update table_R_na set flag_COMMENT_PI = 'CORRECTION:PI name;' where PN = 'JP 2005503139-A';
 * DD146202 - DD146210

差分集計

 * keep: 旧FF変換ツールのバグによる差分が発生しているエントリー.
 * replace: DDBJが過去に修正を行ったエントリー. 修正が完了すると差分検出数から除かれる.

フラグ集計
REFERENCE-AUTHORS行、REFERENCE-JOURNAL行、REFERENCE-TITLE行は、旧FF作成プログラムのバグにより誤って生成された内容が格納されている場合がある. 新FFとリリース88 FFの間で差分が発生しているエントリーの各行を比較して誤生成のタイプを判別し、flag_REFERENCE_AUTHORS, flag_REFERENCE_JOURNAL, flag_REFERENCE_TITLEに誤生成のタイプを示すフラグを入れる.

update_flag_REFERENCE_AUTHORS.pl

update_flag_REFERENCE_JOURNAL.pl

update_flag_REFERENCE_TITLE.pl

ここまでの作業で、リリース88のDDBJ FFで誤った内容が入っていた箇所とそのタイプ、FF作成後に修正を行った箇所をフラグとして記録したので、その集計を行う.

差分発生件数
エントリーごとにリリース88のFFと新型プログラムで作成したFFの間の差分発生箇所と発生原因を、そのエントリーが特許庁から送付された年ごとにカウントした.

count_flag_year.pl


 * 出力結果：[[Media:Count_result.txt]]

release88 FFのCOMMENT行における不正フォーマットの検出
check_empty_header.pl


 * 修正対象のエントリー（table_R_for_rev.db）から検出されたCOMMENT行の不正フォーマット：[[Media:Check_empty_header_result3.txt]]
 * 非修正対象のエントリー（table_R_fix.db）から検出されたCOMMENT行の不正フォーマット：[[Media:Check_empty_header_result_fix.txt‎]]

CC  "Cloned"  W. Greenberg, et al., PNAS APril 20, 2004, Vol 101, CC           No. 16, pp 差分抽出スクリプトは、ヘッダがなかった場合は前の行のヘッダと同じと見なして処理しているので、上のような不正フォーマットでは差分は検出されない. 非修正対象のエントリーでもCOMMENT行の不正フォーマットが検出されたエントリーは新変換ツールでFFを再生成する.

table_R_fix.db中のFF再生成対象のACCESSIONリスト
 * aa（113,787エントリー）: [[Media:Ac_list_for_rev_in_fix_aa.txt]]
 * na（270エントリー）: [[Media:Ac_list_for_rev_in_fix_na.txt]]