特許庁由来データの整理

背景
History Patent 1993-04-xx 　EPO、USPTO sequence data released in DDBJ Release 13 Patent 1993-07-xx　 JPO sequence data included in DDBJ Release 14 Patent 1997-05-xx　 at ICM10th, representatives from JPO/EPO/USPTO attend and agreed in using(DDBJ/EMBL/GenBank)as framework of exchanging and sharing USTPO,EPO,JPO data. Patent  2006-07-xx　JPO contacted DDBJ on KIPO data sharing via DDBJ Patent  2007-xx-xx  Prof. H.Sugawara visited KOBIC on data transfer.  Patent <Date> 2008-03-xx <Note> Sequence data from KIPO released from KOBIC->DDBJ. <Event> Patent <Date> 2009-07-xx <Note> Mr.Aono assigned as DDBJ Patent leader/Hub <Event> Patent <Date> 2009-07-xx <Note> web site for patent business started by editor Mr. Aono <Event> Patent <Date> 2010-05-xx <Note> DDBJ started to put taxonomyID to patent derived records. <Event> Patent <Date> 2010-05-xx <Note> amino acids in patent file put on anonymous ftp. <Event> Patent <Date> 2010-07-xx <Note> K.Okubo visited KOBIC on data transfer <Event> Patent <Date> 2010-08-xx <Note> patent amino acids subjected to DDBJ-Blast
 * 世界の特許の多くは、USPTO（US), EPO(Europe), JPO(日本)の3つのいずれかに登録されている.
 * 特許庁3極とINSDC3極の話し合いで、データの送付が始まっている.
 * 特許庁からINSDCへのデータ送付の経緯は以下の通り.

どのディレクトリが何であるか、担当者が変わっていったためすべて把握している人がかなり前から居ない.
 * 過去のデータのアーカイブに、特許庁から送られてきたオリジナルデータと、作業で作られた中間データの両方が混在している.


 * 2012.01までは、特許庁からDDBJにデータが送られてきた後以下のような作業によりデータの公開が行われてきた.
 * データに異常があった場合、DDBJから特許庁に再送付の依頼をして、書き換わったデータが送られてくることがあります.
 * 具体例 ---
 * データに異常があった場合、DDBJが特許庁と連絡してDDBJ側で直してしまうこともあります.
 * 具体例 ---
 * データに異常がなければ、変換プログラムを使ってJPO形式からDDBJフラットファイル形式にデータが変換されます.
 * 以前の変換プログラムにはJPO形式からDDBJフラットファイル形式に変換する際に変換ミスが生ずるバグが存在した.
 * データに異常がなくても、特許の配列がnnnとなっているなど、INSDCの除外規則に当たるエントリは除外されます.
 * 変換した後に、DDBJのアノテーターがDDBJフラットファイルを手で編集することがある.
 * 具体例 ---
 * どのデータに手作業が入ったかについて、明示的な記録は残っていない.


 * 2012.02以降、新変換プログラムに切り替えられ、プログラム上の変換ミスはなくなった.

問題

 * JPO形式をDDBJフラットファイルに変換する際に、変換ミスがあったが、いつからどの程度の数あったのかを調査する.
 * 2012.02以降、新変換プログラムに切り替えられ、変換ミスがなくなったので、これを使って過去の全データの再変換を行いたい.
 * そのためにはアノテーターが手作業で行った作業の部分を、過去のデータと、新データを比較することによって検出する.
 * これら２つの作業の前提として、JPOから送られてきた全データ一式を、過去のデータのアーカイブから探し出さねばならない.

全体の作業手順

 * 1) 特許庁由来データの整理 ディレクトリ全体を観察して、どのようなファイルがあるかを調べる.
 * 2) * 結論: 特許庁から送付されてきたデータのファイル名のパターンを目視で確認し、それを全部記載した. これを使えば特許庁からの送付データを一網打尽にできる.
 * 3) 特許庁由来データの整理 ファイル単位の整理
 * 4) * よくみるとディレクトリ中には同じ名前のファイルがあちこちにあり、しかも同じ名前で内容が異なるものがあるので、ファイルを単位にして、内容が互いに異なる一揃いのセットを作った.
 * 5) * 特許庁由来データの整理 ファイル単位の整理 補足 : setA, setBの話
 * 6) 特許庁由来データの整理 エントリ単位の整理（改訂版）
 * 7) * 特許庁由来データの整理 エントリ単位の整理

この作業手順で良い理由の説明 (warrant)
以下を参照. http://rgm2.lab.nig.ac.jp/wiki/index.php/%E7%89%B9%E8%A8%B1%E5%BA%81%E7%94%B1%E6%9D%A5%E3%83%87%E3%83%BC%E3%82%BF%E3%81%AE%E6%95%B4%E7%90%86_%E3%82%A8%E3%83%B3%E3%83%88%E3%83%AA%E5%8D%98%E4%BD%8D%E3%81%AE%E6%95%B4%E7%90%86#.E3.81.93.E3.81.AE.E6.96.B9.E9.87.9D.E3.81.A7.E3.81.84.E3.81.84.E3.81.93.E3.81.A8.E3.81.AE.E8.AA.AC.E6.98.8E