特許庁由来データの整理 ディレクトリ全体を観察して、どのようなファイルがあるかを調べる。


 * 特許庁由来データの整理

アーカイブデータのディレクトリ構造
過去のデータ全体は ~/data/DDBJ/jpo 以下に置いてある.

どのファイルが何であるかが今となっては不詳なものが含まれているので、 不確かな仮定を設けず、全体の様子を観察するところから始める.

まず全体の大きさを把握する. ディレクトリ数、ファイル数は以下の通り.
 * ディレクトリの数が721個なので、まずはディレクトリ単位で集計すれば全体の様子を一望できる程度の数と言える.

問題

 * ディレクトリ中のどこに特許庁からの送付データがあるかのアタリをつける.
 * ディレクトリの作成者は、何らかの意図があってディレクトリにファイルを分けて入れているのであるから、その方針を読み取る.

ディレクトリの全体像を眺める
$ /usr/bin/tree -d -L 3 . `-- mkrelease |-- jpo |  |-- data |  |-- include |  |-- jpo_list |  |-- jpo_list_newtool |  |-- list |  |-- logs |  |-- logs_newtool |  |-- modify_data |  |-- tools |  |-- update |  `-- work `-- RELEASE `-- data
 * -- mirror_update
 * |-- jpo
 * `-- jpo2

18 directories

各ディレクトリの意味は以下の通り.

mkrelease/jpo/dataの中をさらに覗く
ディレクトリの内容でまだ謎なのはmkrelease/jpo/dataの下だけ. このディレクトリの中をさらに覗いてみる. o0gasawa@t215:~/data/DDBJ/jpo/mkrelease/jpo/data (2012-05-07 19:29:01) $ /usr/bin/tree -d -L 1 . `-- updt_newtool
 * -- dist
 * -- dist_newtool
 * -- err
 * -- err_newtool
 * -- expand
 * -- first_data
 * -- new
 * -- now
 * -- now_newtool
 * -- old
 * -- old_data_backup_at_horn
 * -- old_newtool
 * -- release_jpo
 * -- updt

15 directories

特許庁由来データの整理　ディレクトリの詳細