特許庁由来データの整理 ファイル単位の整理 補足 : setA, setBの話

拡張子 ".*\.[an]a.seq.*"が含まれるディレクトリのリスト.
724 /home/o0gasawa/data/DDBJ/jpo/mirror_update/jpo/ 6 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/err/20090729/old/work_mamiya/new/ 6 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/err/20090729/old/work_mamiya/old/ 6 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/err/20090811/old/ 2 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/err/20101005/old/ 2 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/err/20101026/double_space/ 1 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/err/201012/double_space/ 3 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/err/201101/old/ 6 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/err/201103/110328_2/dat/ 6 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/err/201104/20110425/PA_list/ 2 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/err/201107/20110713/2space/ 2 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/err/save/ 8 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/err_newtool/ 6 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/new/work/ 12 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/now/work/ 12 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/now_newtool/ 766 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old/ 29 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old/backup/ 2 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old/backup/100824_20100715duplicate_chk/ 59 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old/old/ 4 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old/old/work/ 4 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old/old/work2/ 1 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old/work/ 8 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/2001/ 13 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/2002/ 60 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/2003/ 72 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/2004/ 42 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/2005/ 2 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/data/acc_dup_check/data/WO2005014633_aa/ 2 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/data/err/save/ 1 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/data/mol_type_check/test/ 6 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/data/new/work/ 3 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/data/now/work/ 341 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/data/old/ 23 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/data/old/backup/ 59 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/data/old/old/ 4 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/data/old/old/work/ 4 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/data/old/old/work2/ 1 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/data/old/work/ 6 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/data/save/ 4 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/data/seq_char_check/data/jpo/ 136 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/data/seq_char_check/data/jpo/original/ 3 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/data/seq_char_check/data/jpo/original/work/ 2 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/data/acc_dup_check/data/WO2005014633_aa/ 2 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/data/err/save/ 1 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/data/mol_type_check/test/ 6 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/data/new/work/ 3 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/data/now/work/ 341 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/data/old/ 23 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/data/old/backup/ 59 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/data/old/old/ 4 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/data/old/old/work/ 4 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/data/old/old/work2/ 1 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/data/old/work/ 6 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/data/save/ 4 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/data/seq_char_check/data/jpo/ 136 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/data/seq_char_check/data/jpo/original/ 3 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/data/seq_char_check/data/jpo/original/work/ 2 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/tools/work3/ 6 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/tools/work4/ 6 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/tools/work4/current/ 10 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/tools/work4/new/ 26 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_newtool/ 4 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/modify_data/data56/old/org/ 9 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/modify_data/data57/before_200604/ 1 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/modify_data/data57/from_200605/ 2 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/modify_data/data75/dat/ 2 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/modify_data/data77/ 4 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/modify_data/list/ 2 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/tools/.old/work3/ 6 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/tools/.old/work4/ 6 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/tools/.old/work4/current/ 10 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/tools/.old/work4/new/ ファイル名に書かれているタイムスタンプが2001年以降のファイルの在処はこれで網羅されているはず.

2000年以前のファイルは/home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/以下の年別のディレクトリに入っており、1995から1999に入っているファイル名のファイルはここにしかない.

/home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/1995/ /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/1996/ /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/1997/ /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/1998/ /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/1999/

1994年のファイルは以下の場所で見つかった. この2か所に入っているファイルは同一のものである.

/home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/1994/ /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/first_data/oldest_bakupsrv

2000に入っているファイルについては以下の通り. 3つの20000908.na_final.seqは同一のものである. jpoaa.20000908.seqと20000908.aa_final.seq、jpona.20000908.seqと20000908.na_final.seqはそれぞれ入っているAC行は同一だが、jpoaa.20000908.seqとjpona.20000908.seqはDE行が空のままになっていたり、PN行の値が前半部分だけになっていたりするので使わない.

/home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/2000/jpoaa.20000908.seq /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/2000/jpona.20000908.seq /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/2000/20000908.aa_final.seq /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/2000/20000908.na_final.seq /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/data/seq_char_check/data/jpo/original/20000908.na_final.seq /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/data/seq_char_check/data/jpo/original/20000908.na_final.seq

この他に、".*\.[an]a.seq.*"で表されないファイル名で、ファイルサイズが0でない特許庁のファイルは以下のものが見つかった.

jpoaa.20020724.seq, jpona.20020724.seqは/home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/2002/にある20020724.aa.seq, 20020724.na.seqとそれぞれ同一の内容である.

japio.datは/home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/1998/japio_E00001-E14010.dat.980515の先頭3171エントリーとほぼ同一であるが、',', '.', '-'の文字が化けている.

/home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/first_data/japio.dat.gz /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/2002/jpoaa.20020724.seq.gz /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/2002/jpona.20020724.seq.gz /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/modify_data/data76/2003.send_jpo.jpo.ff /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/tools/.old/work/t1.seq /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/tools/.old/work/t2.seq /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/tools/.old/work/t2_aa.seq /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/tools/.old/work/t3.seq

特許庁から送付されたデータファイル一揃いはどれですか
まず、ファイル数の多い2つのディレクトリのファイルを比較する.

A  724 /home/o0gasawa/data/DDBJ/jpo/mirror_update/jpo/ B  766 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old/

それぞれのディレクトリの圧縮ファイルを展開し、塩基配列データとアミノ酸配列データのファイル（*.na.seq, *.aa.seq）について同じファイル名のファイル同士をファイルサイズとdiffで比較する.

cmpBGSG.pl

なお、Aの20050106.aa.seq.gz, 20070130.aa.seq.gzはファイルが破損しているのか展開できなかった.

・ファイル名が同じで内容の異なるファイル：685ファイル ・ファイル名も内容も同一のファイル：31ファイル ・Aのみのファイル：20030711.aa.seq, 20030711.na.seq, 20110614-00[1-4].na.seq ・Bのみのファイル：20020219.aa.seq, 20020219.na.seq, 20020801.na.seq, 20030109-test.na.seq, 20030711-[01-18].aa.seq, 20030711-[01-29].na.seq, 20050106.aa.seq, 20070130.aa.seq

AとBは内容の異なるファイルセットであると言えるので、残りのディレクトリのファイルがA, Bどちらに属するか、あるいは全く異なるファイルか、同じようにチェックしていく.

cmp_dir_batch.pl

1列目は通し番号、2列目はAにあるのと同じファイル名のファイルがすべてAと同一ならA、Bにあるのと同じファイル名のファイルがすべてBと同一ならB、それ以外はM、3列目は2列目がAまたはBの場合にAまたはBに存在しないファイル名のファイル数、4列目はディレクトリにある*[an]a.seq*ファイルの数、5列目はディレクトリのパスである.

0	B	0	     6 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/err/20090729/old/work_mamiya/new/ 1	M		     6 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/err/20090729/old/work_mamiya/old/ 2	B	0	     6 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/err/20090811/old/ 3	B	0	     2 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/err/20101005/old/ 4	M		     2 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/err/20101026/double_space/ 5	M		     1 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/err/201012/double_space/ 6	B	0	     3 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/err/201101/old/ 7	B	0	     6 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/err/201103/110328_2/dat/ 8	M		     6 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/err/201104/20110425/PA_list/ 9	M		     2 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/err/201107/20110713/2space/ 10	M		     2 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/err/save/ 11	M		     8 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/err_newtool/ 12	A	0	     6 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/new/work/ 13	M		    12 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/now/work/ 14	M		    12 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/now_newtool/ 15	M		    29 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old/backup/ 16	A	0	     2 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old/backup/100824_20100715duplicate_chk/ 17	M		    59 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old/old/ 18	B	0	     4 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old/old/work/ 19	B	0	     4 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old/old/work2/ 20	A	0	     1 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old/work/ 21	M		     8 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/2001/ 22	A	3	    13 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/2002/ 23	A	0	    60 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/2003/ 24	A	0	    72 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/2004/ 25	A	1	    42 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/2005/ 26	M		     2 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/data/acc_dup_check/data/WO2005014633_aa/ 27	M		     2 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/data/err/save/ 28	B	0	     1 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/data/mol_type_check/test/ 29	A	0	     6 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/data/new/work/ 30	B	0	     3 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/data/now/work/ 31	B	0	   341 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/data/old/ 32	B	8	    23 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/data/old/backup/ 33	M		    59 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/data/old/old/ 34	B	0	     4 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/data/old/old/work/ 35	B	0	     4 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/data/old/old/work2/ 36	B	0	     1 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/data/old/work/ 37	M		     6 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/data/save/ 38	M		     4 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/data/seq_char_check/data/jpo/ 39	B	1	   136 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/data/seq_char_check/data/jpo/original/ 40	B	2	     3 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/data/seq_char_check/data/jpo/original/work/ 41	M		     2 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/data/acc_dup_check/data/WO2005014633_aa/ 42	M		     2 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/data/err/save/ 43	B	0	     1 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/data/mol_type_check/test/ 44	A	0	     6 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/data/new/work/ 45	B	0	     3 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/data/now/work/ 46	B	0	   341 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/data/old/ 47	B	8	    23 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/data/old/backup/ 48	M		    59 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/data/old/old/ 49	B	0	     4 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/data/old/old/work/ 50	B	0	     4 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/data/old/old/work2/ 51	B	0	     1 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/data/old/work/ 52	M		     6 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/data/save/ 53	M		     4 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/data/seq_char_check/data/jpo/ 54	B	1	   136 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/data/seq_char_check/data/jpo/original/ 55	B	2	     3 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/data/seq_char_check/data/jpo/original/work/ 56	B	0	     2 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/tools/work3/ 57	A	0	     6 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/tools/work4/ 58	B	0	     6 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/tools/work4/current/ 59	M		    10 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/server-bkp/db03/disk/release/mkrelease/jpo/expand/tools/work4/new/ 60	M		    26 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_newtool/ 61	B	3	     4 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/modify_data/data56/old/org/ 62	M		     9 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/modify_data/data57/before_200604/ 63	M		     1 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/modify_data/data57/from_200605/ 64	B	0	     2 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/modify_data/data75/dat/ 65	M		     2 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/modify_data/data77/ 66	M		     4 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/modify_data/list/ 67	B	0	     2 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/tools/.old/work3/ 68	A	0	     6 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/tools/.old/work4/ 69	B	0	     6 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/tools/.old/work4/current/ 70	M		    10 /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/tools/.old/work4/new/

次に上のテーブルで2列目がMまたは3列目が1以上の行について、A, Bとの比較結果の詳細をチェックして分類し直した. ファイルが特許庁からのものではなかった場合は-、一部のファイルの例外を除いてAまたはBとファイルが同一の場合、それぞれAまたはB、それ以外をMとした. また、例外だったファイル（ファイル名が同じだったが内容が異なるファイル）のファイル名を3列目に書き出し、A, Bに含まれないファイル名を4列目に書き出した.

上のテーブルの4列目のファイルについて、同じファイル名のファイル同士を比較する. 20010416.aa.seq 15 = 32 = 47 21 = 37 = 52

20010416.na.seq 15 = 32 = 47 21 = 37 = 52

20010418.aa.seq 15 = 32 = 47 21 = 37 = 52

20010418.na.seq 15 = 32 = 47 21 = 37 = 39 = 52 = 54

20011004.aa.seq 15 = 32 = 47 21 = 37 = 52

20011004.na.seq 15 = 32 = 47 21 = 37 = 40 = 52 = 55

20011024.aa.seq 15 = 32 = 47 21

20011024.na.seq 15 = 32 = 47 21 = 40 = 55

20020219.aa.seq 15 = 31 = 32 = 46 = 47 22

20020219.na.seq 22 31 = 39 = 46 = 54

20020219.na.seq.err 10 = 27 = 42

20020801.na.seq B = 22 = 31 = 39 = 46 = 54

20020801.na.seq.perr 10 = 27 = 42

20050106.aa.seq 25 B = 31 = 46

BD003196-BD003199.na.seq 38 = 53

BD013996-DD170627.na.seq 38 = 53

E03791-E11548.na.seq 38 = 53

E60929-E64766.na.seq 38 = 53

WO2005014633_20050809.aa.seq 26 = 41

WO2005014633_20050901.aa.seq 26 = 41 以上の結果から、15, 32, 47のユニークファイルはB、21, 22, 25, 37, 52のユニークファイルはAに分類する.

10, 27, 42のユニークファイルについては以下の通り.

13のユニークファイルについては以下の通り.

14のユニークファイルについては以下の通り.

26, 41のユニークファイルについては以下の通り.

38のユニークファイルについては以下の通り.

61のユニークファイルについては以下の通り.

一部のエントリーのみが取り出されたらしきファイルについては、比較先から該当するエントリーのみを取り出して比較する.

select_entry.pl

11のユニークファイルについては以下の通り.

62の例外ファイルについては以下の通り.

63のユニークファイルについては以下の通り.

38のBD013996-DD170627.na.seqについては以下の通り.

tmp4.txtからB/20020219.na.seqを削除して、

Bの20030109-test.na.seqと20030109.na.seqについては、以下のようにID行とAC行のみが異なっている. DDBJのデータと比較すると、正しいACCESSIONは20030109.na.seqの方であるので、20030109-test.na.seqは除外する.

select_entry_by_PN.pl

1c1 < ID  BD171281   Standard; DNA; 864 BP. --- > ID  BD165796   Standard; DNA; 864 BP. 5c5 < AC  BD171281; --- > AC  BD165796;

（中略）

1718c1718 < ID  BD171327   Standard; DNA; 25 BP. --- > ID  BD167455   Standard; DNA; 25 BP. 1722c1722 < AC  BD171327; --- > AC  BD167455;

以上の結果から、set Aとset Bの二つのファイルセットを以下のように定める.

ただし、特許庁から/home/o0gasawa/data/DDBJ/jpo/mirror_update/jpo/に入っている20110614-001.na.seq, 20110614-002.na.seq, 20110614-003.na.seq, 20110614-004.na.seqは誤ったアクセッション番号が割り振られたデータであることが報告されているため、set Aから取り除く.

set Bからは20030109-test.na.seqを取り除く.

/home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/1997/のjp_dna1.dat, jp_dna2.dat, jp_dna3.dat, jp_dna4.dat, jp_dna5.dat, jp_dna6.datとjp_prt1.dat, jp_prt2.dat, jp_prt3.dat, jp_prt4.datはそれぞれ1ファイルを分割したものなので、1ファイルに連結する.

なお、/home/o0gasawa/data/DDBJ/jpo/mirror_update/jpo/20070130.aa.seq.gzが展開できず、ほかの場所からも補完できなかったため、set Aは20070130.aa.seqが足りない状態になっている.

set A /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/1994/JP_*.DAT* /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/1995/JP_*.DAT* /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/1996/JP_*.DAT* /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/1997/jp_*.dat /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/1998/*.dat* /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/1999/jp_*.dat.* /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/2000/20000908.*_final.seq /home/o0gasawa/data/DDBJ/jpo/mirror_update/jpo/*.seq.gz /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/2001/*.seq.gz /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/2002/20020219.aa.seq.gz /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/2002/20020219.na.seq.gz /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/2002/20020801.na.seq.gz /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/2005/20050106.aa.seq.gz

cp_set_A.sh

set B /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/1994/JP_*.DAT* /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/1995/JP_*.DAT* /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/1996/JP_*.DAT* /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/1997/jp_*.dat /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/1998/*.dat* /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/1999/jp_*.dat.* /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old_data_backup_at_horn/JPO/jpo_update/2000/20000908.*_final.seq /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old/*.seq* /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old/backup/20010416.*.seq.Z /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old/backup/20010418.*.seq.Z /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old/backup/20011004.*.seq.Z /home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old/backup/20011024.*.seq.Z

cp_set_B.sh

※/home/o0gasawa/data/DDBJ/jpo/mkrelease/jpo/data/old/*.seq はファイルサイズ0のファイルだが、念のためコピーしておく.

= 解析作業 =

特許庁から送付されたデータの最新版を作る
ID系列は何を使うのが適当か？ (Accession Numberか？特許公報番号か？)

set Aとset Bを簡単に比較してみた. 一例としてこのような結果が得られた.

この例の場合、set AではA76591のACCESSIONは特許庁から3回提出され、1回目と2回目は特許番号JP 03076404-T/1、3回目は特許番号WO 0123573-A/1で提出されている. set BはA76591をDDBJ形式のACCESSIONに書き換えてあると考えられるが、3回とも異なるIDが振られており、最後に振られたIDがDDBJのACCESSIONになっている. DDBJ release88に存在するエントリーはBD093843, WO 0123573-A/1の組み合わせのみとなる. そこでまず、ACCESSIONと特許番号でJPOとDDBJのエントリーを比較し、DDBJのACCESSIONと特許番号が同じJPOのエントリー、ACCESSIONが同じだが特許番号が異なるJPOのエントリー、特許番号が同じだがACCESSIONが異なるJPOのエントリー、DDBJのエントリーに同じACCESSIONも特許番号も存在しないJPOのエントリーに分類する.

1つの特許庁送付ファイル中に同じACCESSION、特許番号のエントリーが複数回入っているかチェックする.

get_dup_element_in_file.pl

一つのファイル中に複数回同じACCESSIONが登場することはあるが、それぞれの特許番号は異なっていた. よって、ファイル名、ACCESSION、特許番号の3つの値の組み合わせで特許庁から送付されたデータの全エントリーがユニークとなる. ファイル名、特許番号の2つの値の組み合わせで特許庁から送付されたデータの全エントリーがユニークとなる.

JPOデータのset A, set Bからそれぞれ、ファイル名, AC, PNの値を取り出す.

get_ac_pn.pl get_ac_pn.sh

DDBJ release88からACCESSION, 特許番号を取り出す.

get_ddbj_jpatent.pl get_ddbj_parsed_refjournal.pl get_ddbj_ac_pn.pl

DDBJのデータで特許番号が同じACCESSIONがあるかチェックする.

特許番号に重複はない.

Patent amino acid sequence data for JPOからACCESSION, 特許番号を取り出す.

parse_ddbj.pl

Patent amino acid sequence data for JPOのデータで特許番号が同じACCESSIONがあるかチェックする.

特許番号に重複はない.

JPOデータとDDBJデータでACCESSIONと特許番号の組み合わせの食い違いを調べる. DDBJのエントリーのACCESSION-特許番号の組み合わせと同じJPOのエントリーをmatch、 ACCESSIONが同じで特許番号が異なるJPOのエントリーをdif_pn、DDBJに同じACCESSIONのないJPOのエントリーをne_acと判定する. ne_acには、同じ特許番号がDDBJに存在するJPOのエントリー（DDBJ登録時にACCESSIONが付け替えられたエントリー）と、同じ特許番号がDDBJに存在しないJPOのエントリー（DDBJ登録時にリジェクトされたエントリー）の2種類が含まれる. 同じAC, PNがDDBJに存在するが、それぞれ別のPN, ACと組になっている場合conflict、DDBJに同じACがあるがPNはない場合ch_pn、DDBJに同じPNがあるがACはない場合ch_ac、DDBJに同じAC, PNがない場合ngと判定する.

※特許番号JP 1999000169-A/1からJP 2000065829-A/1は特許庁送付データではJP 1999000169-A/N1からJP 2000065829-A/A1となっているため、特別にA, Nを外して比較する.

decide_jpo_data.pl

DDBJにACCESSIONは存在するが特許番号は存在しないJPOエントリー（ch_pn）は、特許番号の変更があったと考えられる. DDBJに特許番号は存在するがACCESSIONは存在しないJPOエントリー（ch_ac）は、DDBJでACCESSIONの付け替えが行われたと考えられる. DDBJにACCESSIONも特許番号も存在しないJPOエントリーは登録が行われなかったか、特許番号の変更とACCESSIONの付け替えの両方があったと考えられる. conflictについては、現在別のエントリーに付けられているACCESSIONが過去に付けられていたと考えられる.

ne_acを付けた ch_acと判定したJPOエントリーについて、DDBJデータと特許番号が同じになるACCESSIONの組を取り出す. 同時に、ne_acを付けたJPOエントリーについてDDBJ側に特許番号が存在するかどうかを判定し、特許番号が存在しない場合はrejectとする.

※特許番号JP 1999000169-A/1からJP 2000065829-A/1は特許庁送付データではJP 1999000169-A/N1からJP 2000065829-A/A1となっているため、特別にA, Nを外す処理を追加する.

gen_ac_conv_table.pl

さらに塩基配列情報も取り出して、両者で同一の配列の場合DDBJのACCESSIONとJPOのACが対応付けできたとする.

FTPサイトからddbj release 88のデータを取ってきて、配列情報を抽出する.

get_ddbj_sq.pl

Patent amino acid sequence data for JPOからアミノ酸配列データを取り出す.

JPOデータから配列データを取り出す.

get_jpo_sq.pl

JPOとDDBJの配列データを比較して、JPOデータとDDBJデータでACCESSIONと特許番号の組み合わせの食い違いを調べた結果に反映させる. ne_acと判定されたエントリーについて、1つの特許庁送付ファイル中に同じACCESSION-特許番号の組み合わせが複数回入っており、それぞれの塩基配列が異なっていた場合dup_dataとする. また、DDBJのエントリーの塩基配列とJPOのエントリーの塩基配列が異なっている場合ng_data、......

cmp_ddbj_jpo_sq.pl

conflict, ch_pn, ng, ng_sq行を除いて、残った行からファイル名のタイムスタンプが最新のAC（JPO->DDBJ変換済）, PNの組を取り出せばよいはず.

get_latest_entry.pl

set Aが塩基配列874エントリー、アミノ酸配列12,297エントリー、set Bが塩基配列10,882エントリー、アミノ酸配列16,726エントリー足りない.

cmp_ddbj2jpo_latest.pl


 * set A 塩基配列
 * DL232476 - DL233349 (874エントリー): 特許番号がDDBJではJP 2004518360-A/1 - JP 2003199594-A/27、特許庁送付データではJP 2004518360-A/1 - JP 2004199594-A/27 (20081111.na.seq)

修正日 09/04/15 修正内容 公報番号誤記対応(DNA,アミノ酸配列) 作業ディレクトリ db03:/disk/release/mkrelease/jpo/modify_data/data54 修正エントリ DNA(874エントリ) DL232476-DL233349 アミノ酸配列(580エントリ) DD722812-DD723260,DD723353-DD723427,DD725646-DD725648 DD730445-DD730492,DD731077-DD731081 公開日 09/04/15 (DDBJr77u0035.dat.Z)


 * setA アミノ酸配列
 * BD929259 - BD930194 (936エントリー): 20070130.aa.seqに入っているエントリーのため抜け
 * DD722812 - DD731081 (580エントリー): DDBJではJP 2003517819-A/8 - JP 2003201299-A/8、特許庁送付データではJP 2004517819-A/8 - JP 2004201299-A/8 (20081111.aa.seq)
 * E50001 - E88172 (10781エントリー): 特許番号が変更になっている？

修正日 09/04/15 修正内容 公報番号誤記対応(DNA,アミノ酸配列) 作業ディレクトリ db03:/disk/release/mkrelease/jpo/modify_data/data54 修正エントリ DNA(874エントリ) DL232476-DL233349 アミノ酸配列(580エントリ) DD722812-DD723260,DD723353-DD723427,DD725646-DD725648 DD730445-DD730492,DD731077-DD731081 公開日 09/04/15 (DDBJr77u0035.dat.Z)


 * set B 塩基酸配列
 * BD000001 - BD011672 (10,008エントリー): conflict
 * DL232476 - DL233349 (874エントリー): 特許番号がDDBJではJP 2004518360-A/1 - JP 2003199594-A/27、特許庁送付データではJP 2004518360-A/1 - JP 2004199594-A/27 (20081111.na.seq)


 * set B アミノ酸配列
 * BD500001 - BD506124 (5365エントリー): conflict
 * DD722812 - DD731081 (580エントリー): DDBJではJP 2003517819-A/8 - JP 2003201299-A/8、特許庁送付データではJP 2004517819-A/8 - JP 2004201299-A/8 (20081111.aa.seq)
 * E50001 - E88172 (10781エントリー): 特許番号が変更になっている？


 * 1) 特許庁からもらった最後のデータのセットを作る. 
 * 2) 最後のデータのセットを、現行の変換プログラムで変換. 
 * 3) リリース88データのJPO由来部分と比較して、違うところを検出. （JPO FF new, JPO FF 88ともにパーサーでフィールドにばらして比較）
 * 4) 検出したら、レポートを青野さんに送る. (前変換プログラムの変換間違いと、手直しの結果が入ってることになる. タブ区切りのテーブルを作って解釈は青野さんに. ）