DDBJ keyword search

=キーワードサーチのヒットフィールドによるドリルダウン= IKUMI SUZUKI

目的
一億数千万枚のレコードからなるフラットファイルからキーワード検索だけで望むレコードを取得するのは容易ではありません.

現在新キーワードサーチには生物およびデータディビジョンによるドリルダウンメニューが用意されていますが キーワードによってはこの分割によっても十分でないケースが少なくありません. 一方でフィールド指定によるadvanced serach を利用するには ①検索者に特定の内容をレコード中に表現する方法に関する十分な知識を要求する ②モデル外の発見がない（こんな風に書く場合も一部あるんだ） などの制約があります http://farm8.staticflickr.com/7211/7072654259_fc74a1526a.jpg

提案手法
そこでキーワード検索の結果をワードのフィールド分布として返し(知識を与える） ドリルダウンメニューとして利用する方法を思いつきその有効性を試すことにしました.

作業手順
ssh -Y username@gw.ddbj.nig.ac.jp cut -f4 /home/ikumi-s/DDBJ_search/REC/rec1001_frog_ddbj* |sort |uniq -c
 * 1. gw.ddbj.nig.ac.jp に業務用アカウントでログインします
 * 2. キーワード「frog」 が登場するフィールドの頻度をみる

grep qualifier:/country /home/ikumi-s/DDBJ_search/REC/rec1001_frog_ddbj* |cut -f2-3
 * 3. 「frog」 が登場する フィールド をリストしたファイルの 「qualifier::/country」 を含んだ行を探して，ファイル名とACCESSION と取得する

grep EU342517 /home/o0gasawa/data/DDBJ_parsed/parsed/ddbj.88/ddbjvrt3.out
 * 4. 「ddbjvrt3.out」 という名前のファイル内にある 「EU342517」 のレコードをみる


 * 5. DNAデータベース (DDBJ/EMBL/GenBank=INSD) 総覧と検索　で 「frog」 を検索する
 * キーワード「frog」として検索した結果 :　 http://lifesciencedb.jp/ddbj/record_search_lucene_res.cgi?country=all&group=all&id_start=181&id_width=20&order=count_ff&sample=all
 * EU342517のフラットファイル :　http://lifesciencedb.jp/ddbj/record_search_lucene_getentry.cgi?accession=EU342517

使用したデータ
gw.ddbj.nig.ac.jp の　/home/o0gasawa/data/DDBJ_parsed/parsed/ddbj.88/ 以下にある369個のparsed data のうち，以下21個のファイルを検索対象とした． ddbjbct11.out ddbjcon23.out ddbjenv6.out ddbjest156.out ddbjgss64.out ddbjhtc1.out ddbjhtg21.out ddbjhum5.out ddbjinv5.out ddbjmam1.out ddbjpat27.out ddbjphg.out ddbjpln8.out ddbjpri1.out ddbjrod4.out ddbjsts2.out ddbjsyn1.out ddbjtsa7.out ddbjuna.out ddbjvrl3.out ddbjvrt3.out
 * 検索対象ファイル

MeSH に登録されており，一般的過ぎず，specific 過ぎない，よく使われる用語 thalamus liver kidney frog butterfly bee DMSO radical rifampicin altzheimer parkinson teratoma complete genome
 * 検索キーワード

キーワード別　フィールドごとの頻度結果
真島さんがcomplete genome を探すとき ”DEFINITIONに"complete & genone" 感度は十分だが　余計なものalmost complete も入るでしょう" WGSにコンプリートゲノムが入っていることあり、　annotateせずfinished sequenceをWGSに突っ込むことは認められてる（むしろバクテリアではそれが奨励されている）


 * complete genome


 * thalamus


 * liver


 * kidney