遺伝研スパコン 質問と答え

= 質問と答え アーカイブ =

BOWTIIEの使いかた
各種アプリケーション・ツール類は、ゲートウェイノード(gw.ddbj.nig.ac.jp) 上でqloginコマンドを実行後に使用できるノード上でご利用いただけます.

--- [user01@gw ~]$ bowtie -bash: bowtie: コマンドが見つかりません [user01@gw ~]$ qlogin Your job XXXXXXX ("QLOGIN") has been submitted waiting for interactive job to be scheduled ... Your interactive job XXXXXXX has been successfully scheduled. Establishing /home/geadmin/UGER/utilbin/lx-amd64/qlogin_wrapper session to host t260i ... Last login: Wed Jun 27 09:14:19 2012 from t351i [user01@t260 ~]$ bowtie No index, query, or output file specified! Usage: bowtie [options]* {-1  -2  | --12  | } [ ] (※略※) [user01@t260 ~]$ which bowtie /usr/local/bin/bowtie ---

ゲートウェイノードはqlogin先のノードとは異なり、個別にインストールが必要 となるアプリケーション、ツール類はインストールしていません.

これは、ゲートウェイノードの役割が「スパコン環境への入り口」であり、 このノード上での解析処理等の実行を想定していないためです. 誤って解析など負荷の高い処理を実行されると、他のユーザにも影響が 出る可能性があるため、ゲートウェイノード上での高負荷な処理の実行は 控えていただく運用となっておりますので、ご了承願います.

以上、宜しくお願いします.

PostresQL PostgreSQLの使用は可能でしょうか.
可能でしたら、その使用方法をお聞き致したく. また、使えない場合は、代替案(代替DB)等お聞き致したく.
 * 1) Cのプログラムから使用する予定

MultiThreadの使い方
XX様が本日投入されているジョブですが、複数のマルチスレッドのジョブを def_slot(後述)を指定せずに投入されているようです. この場合、ジョブはジョブスロットを1つだけ消費しつつ複数のCPUを使うことに なってしまい、UGEの負荷分散機能が適切に機能しなくなります. (確認した時点ではXX様のジョブが複数実行されていた2台の計算ノードが ロードアベレージ80超の高負荷状態となっていました)

マルチスレッドまたはマルチプロセスのジョブを投入される場合は以下のように "-pe def_slot スレッド数"をqsubのオプションに追加で指定願います. この指定により、このジョブが消費するジョブスロット数を定義します. 投入するジョブ内で起動されるプロセスが同時使用する最大スレッド数を 指定する値の目安としてください.

(※4スレッドのジョブを投入する場合) --- $ qsub -pe def_slot 4 job01.sh ---

def_slotを指定した場合、要求するリソース量が

"-lで指定したリソース量" * "def_slotで指定したスロット数"

となりますので、ご注意願います.

以下の場合、"-pe def_slot"で"4"を指定し、"-l "は明示していないので デフォルトの"-l s_vmem=4G -l mem_req=4G"が適用されるため、 このジョブは16GBのメモリを要求することになります. --- $ qsub -pe def_slot 4 job01.sh ---

def_slot等についての概要は、以下の資料をご参考願います.

・UGE概説 http://www.ddbj.nig.ac.jp/wp-content/uploads/a565710b836398594e51de8c2c55db8b1.pdf ・UGEでジョブを投入するノウハウ http://www.ddbj.nig.ac.jp/wp-content/uploads/d281fa48262a6d54d710df771b695e36.pdf

MPI
Q 遺伝研のスパコンを使って、 MPIでシミュレーションの並列計算を行おうと思っています. ３点よろしいでしょうか？ c++でmpiのライブラリを読み込んでいる プログラムを書いているのですが(ファイルは***.ccという拡張子)、 コンパイル時には mpiCCとmpic++とmpiccのどれを選べばいいでしょうか？ どれでもいいでしょうか？ コンパイル時の計算高速化(最適化)のオプションとしてどういうものが 使えますか？ 最適化のオプションというのは例えば、 mpicc -O3 -c supakon.cc の-O3みたいなオプションを指します. ちなみに、私は統数研のスパコンでも計算を行っており、 その時は(富士通の計算機なのですが） mpiFCC -Kfast -c supakon.cc のように-Kfastというオプションを使っているのですが、 これは遺伝研でも使えますでしょうか？ 最後に、mpiの並列数をシェルスクリプトに書く際に 計算ノードは最大でいくつまで指定できますか？ また、ジョブ投入前に、すぐに計算のできる計算ノードの数を調べるには どのようにしたらよいでしょうか？ A by Yasuda ・コンパイラについて C++ソースのコンパイルには、/usr/local/bin以下のものを使用される場合、 mpicc,mpiCC,mpic++いずれも問題ありません.

本スパコンでOpenMPI環境はIntel版、gcc版の2つが使用できます. それぞれ/usr/local/pkg/openmpi以下に1.4.4_icc, 1.4.4_gccとして 配置しています. /usr/local/bin以下には、Intel版を配置しています.

gcc版を使用される場合は、C++ソースのコンパイルには mpiCC,mpic++をご使用願います.

また、OpenMPIは定期的にアップデートします. アップデートにより、特定のバージョンでmpicc,mpirunしていたMPIバイナリが 動作しなくなる事例が散見されるため、常に同じバージョンを使用される 場合は/usr/local/pkg/openmpi以下に存在する特定バージョンを 直接指定してご使用願います.

最適化オプションも、これらのコンパイラで使用可能なものが そのまま使用できます. "-Kfast"オプションは存在しません.

・最大で指定可能な計算ノード数 MPIの並列数には計算ノード数ではなく、ジョブスロットの数を指定します. 主なMPI実行環境には指定可能な並列数の上限として5000を設定して いますが、ジョブの同時実行数の上限のほうが値が低いため、 その値を超えて設定した場合、ジョブは実行されません. 一般研究用アカウントのユーザは現在、ジョブスロットを同時に 500スロットまで使用できます. 並列数に大きな値を指定しても、それと同じ数の使用可能ジョブスロットが 同時に発生しなければそのジョブは実行されないので、ご留意願います.

UGE向けのMPIジョブを投入するシェルスクリプトの記述方法は、 これまでの説明会で配付した資料「UGE概説」をご参考願います. 以下のURLの「4.説明会資料」から取得可能です. http://www.ddbj.nig.ac.jp/system/supercom/supercom-intro.html

特にmpirunコマンドの"-np", "-machinefile"オプションの引数の値に ご注意願います. -np $NSLOTS -machinefile $TMPDIR/machines を指定願います.

・すぐに計算できる計算ノードを調べる方法 以下のURLの"UGEキュー利用状況概要"で、スパコンの使用状況を 公開していますので、ご参考願います. 空きジョブスロット数の他、メモリ量にもご注意願います. ジョブスロットが空いていても、空きスロットを持つノードの 空きメモリが足りず、ジョブスロットを使用できないケースも あります.

http://www.ddbj.nig.ac.jp/system/supercom/supercom-util.html

開発環境
Institution : IGIB, Delhi, INDIA Subject： Regarding the developemtn Message : Dear Sir/Madam, I would like to know the development platform DDBJ. Weather it is implment in Windows, Linux or anthing. What relational database package used and what programming language have been used for development. I would also like to know what web server (apche, IIS etc) used. A by Chiaki Kawagoe, Kouji Watanabe Thank you for your interest of DDBJ.

What DDBJ use is as follows.

development platform: RedHat Linux Server 6.1

programming language: c c++ perl python java ruby Intel C/Fortran compiler PGI C/Fortran compiler R

DBMS: Berkeley DB MySQL PostgreSQL

Web server: apache

= 2012年5月中旬 =

利用条件への質問利用登録や目的を公にしないといけない理由
(2012.04.26~)　利用条件の「なお、利用者の名前、所属、利用目的は原則として公表されることを了解していただきます. 」は、 企業に利用を躊躇させる要因ではあると思います. 企業では、具体的な研究の進捗はもとより、 「何にどのように取り組んでいるか」ことも秘匿するという意識が強いようです. 例えば、各種の検索を外部システムで行う際に、本命の検索の他にダミーの検索も行う、と聞いたことがあります. 内緒で使えないと　企業に対するサービスとしては　価値毀損になりますが 逆に　内緒で利用させていると　国民の資源としては　問題です. 「企業に貸しているので詳細はお知らせできません　」　では　こまりますよね.

将来課金するなら　「内緒にしたい人」　が最初の対象になるのかもしれませんので 企業の方からの現MiGAP運営に関する質問や不満は　直接DDBJスパコンチームにお寄せいただくように 周知いただくと助かります.

MiGAP等のweb service でも登録してからじゃないといけないんですか？
(2012.05.09~) ところで、MiGAPについてユーザ登録を必要とする理由は何なんでしょうか. 登録をしてもうらわなければユーザ別の利用データはスパコングループからは見えない状況になります. BLASTサーチとは大違いの占有度で大きな資源の利用をさせていますので １）サービス別の利用度と受益者分布を資源配分に反映させる運営 ２）計算機資源利用者と利用度を公知にする 報告義務 の二つのために必須です.

MiGAPのシステム面からですが、ユーザは投入した解析をいつでもWebから参照し、かつ 他ユーザの解析結果は参照できないシステムの必要があるため、ユーザ登録/アカウント発行が 必要となっております.

def_slotの値を調整して、ジョブがペンディングになりにくくする方法
(2012.05.16 -- 2012.05.17)

本日投入されているジョブですが、多くのジョブがペンディング状態と なっているようです. より効率的にジョブを実行できる方法を提案できないかと思い、メールを 送信させていただきます.

現在、ジョブを16スレッドで実行されている("-pe def_slot 16")と思います. Thinノードのキューに対してdef_slotを16で指定して投入する、ということは、 完全に空いているノードでのみジョブが実行される、ということでもあり、 現在のようにほぼ満遍なくノードが使用されている状況では、これらのジョブは ノードで実行されない状況が長く続いてしまいます.

qsub実行時のdef_slot指定をレンジ指定で行い、スクリプト内でのスレッド数指 定を以下のように環境変数NSLOTSを使って行うことで、混雑度に応じて柔軟に ジョブを実行できます. ジョブを16スレッドで実行することに拘りがなければ、お試しいただければと 思います.

スクリプトの例を以下に示します (この例ではスクリプト内でdef_slotの指定も行っています) ---
 * 1) !/bin/sh
 * 2) $ -cwd
 * 3) $ -pe def_slot 8-12
 * 4) $ -S /bin/sh

blastall -d /usr/local/db/blast/refseq/refseq-rna-microbial \ -i ~/uvsC -p blastn -a $NSLOTS --- def_slotの値をレンジで指定した場合、ジョブが実行されるタイミングで、 その指定範囲内で使用可能な並列プロセス数を自動的に選択します. 環境変数NSLOTSには、実際に使用される並列プロセス数(このスクリプトの場合 8～12)が設定されます. スクリプト内でスレッド数を指定する箇所をこの環境変数に置き換えることで、 実際に使われる並列数に合ったスレッド数でプロセスを起動できます.

一度、スレッド数を8-12程度でお試しいただけますでしょうか. 実行されるツールによる差はありますが、一般的にスレッド数は 増やしすぎても、消費する資源(今回の場合はCPU)の増加に伴う性能向上が 伸び悩む傾向があります. 計算機資源の有効活用およびキューの渋滞緩和にも繋がりますので、 ご検討いただければと思います.

以上、宜しくお願いします.

> 私のジョブには bowtie が含まれております. > オプションを -p 16 とすると、とても計算が速いので、defslot を16に指定しておりました. > > スパコンのシステムはあまり理解できていないので、確認させて下さい. > 「１つのノードには、複数のユーザのジョブが投入されている」 > という理解でよろしいでしょうか？ > > 例えば、ある１つのノードに >　 Aさんの job　2スロット >　 Bさんの job1　2スロット >　 Bさんの job2　2スロット >　 Bさんの job3　2スロット >　 Cさんの job　8スロット > みたいなことになっている、ということでしょうか？ > > もしそうであれば、 bowtie -p8 くらいにして、defslot も8くらいにしておけば良いのでしょうか？

国立遺伝学研究所 スパコンSEチームの安田です. お世話になります.

本スパコンでは、一つのノードに複数のユーザのジョブが投入されます. したがって、ご推察の状況は恒常的に発生しています.

ノードの使用状況は、qstatコマンドで確認可能です. 以下のオプションで実行されると、各ノードの使用状況および全ユーザの ジョブが表示されます. $ qstat -u '*' -f

bowtieのスレッド数は固定値で指定される場合はお知らせいただいた通り ジョブスクリプト内のbowtieのオプションで"-p 8"を指定されたうえで qsub投入時に"-pe def_slot 8"を指定していただければ問題ありません. この指定であれば、キュー内にある8のジョブスロットが空いているノードで ジョブが実行されます.

もしくは、先ほど私が送付したメールに記載の通り、bowtieのスレッド数の オプションで"-p $NSLOTS"を指定し、qsub投入時に"-pe def_slot 4-12"等、 def_slotの指定を範囲指定で行っていただければと思います. この指定であれば、 ノードの空きスロット数が4であれば"-p 4", "-pe def_slot 4"で実行され、 空きスロット数が12であれば"-p 12", "-pe def_slot 12"で実行されます.

以上、宜しくお願いします.

> とてもよくわかりました. > 大変ありがとうございました. > > ひとつ確認したいのですが、bowtie は -p オプションを指定しなくても、 > 空いているスロット数に応じて、並列処理を行えるのでしょうか？ > > 何度もすみませんが、よろしくお願いします.

bowtieはオプションで"-p スレッド数"を指定しない場合は シングルスレッドで動作します. マルチスレッドで動作させる場合は"-p スレッド数"の指定が必要です.

空いているスロット数に応じてスレッド数を変更したい場合は、以下の 指定を行います. ・def_slotの値を範囲で指定する(例: "-pe def_slot 4-12") →　これで、このジョブは実行先ノードの空きスロットに応じた スロット数を使用します ・ジョブスクリプト内で、bowtieのスレッド数を指定する箇所に 環境変数NSLOTSを使用する(例： "-p $NSLOTS") →　これで、このジョブでのbowtieは実行先ノードの空きスロット数に 応じたスレッド数で、マルチスレッドで動作します.

bowtieが直接「空いているスロット数に応じた並列処理」を行うのではなく、 GridEngineの機能で「空いているスロット数に応じた並列処理」を行って います. 「def_slotの範囲指定」(qsubコマンドのオプション)と 「ジョブスクリプト内での環境変数NSLOTS使用」 (GridEngineのジョブスクリプト内で使用可能な環境変数)を 組み合わせて、「空いているスロット数に応じた並列処理」を行っている ものと認識いただければと思います.

以上、宜しくお願いします.

qlogin時のパスワード入力を省略する方法
(2012.05.15)

質問
gwノードからqloginでインタラクティブノードにログインするときのパスワード入力を省略できますか？

答え
sshの公開鍵認証で、パスフレーズなしの秘密鍵を使って行うことになります. 実行はgwノードまたはqlogin先のノードどこでも構いません.

１．ssh-keygenコマンドを実行し、キーペアを作成します. デフォルトでは以下の内容でキーが作成されます. ファイル名：/home/(ユーザID)/.ssh/id_rsa、id_rsa.pub 鍵のタイプ：RSA 鍵の長さ：2048bit

$ ssh-keygen Generating public/private rsa key pair. Enter file in which to save the key (/home/(アカウント名)/.ssh/id_rsa): Enter passphrase (empty for no passphrase): Enter same passphrase again: Your identification has been saved in /home/(アカウント名)/.ssh/id_rsa. Your public key has been saved in /home/(アカウント名)/.ssh/id_rsa.pub. The key fingerprint is: :

２．出力された公開鍵(id_rsa.pub)の内容を~/.ssh/authorized_keysに追記 (または新規作成)します. $ cd $ cd .ssh $ cat id_rsa.pub >> authorized_keys $ chmod 600 authorized_keys

３．(任意ですが、できれば実行願います) 今回作成した秘密鍵が使用できる接続元をスパコン内に限定するために authorized_keysを編集します. 先ほど追記した行の冒頭に、「from="172.19.*" 」と記述します. from="172.19.*" ssh-rsa AAAAB3.... これで、今回作成した秘密鍵を使った接続は、スパコン内からのみ許可されます. (この秘密鍵が外部に漏れても、その鍵を使って外部から直接gwにログインできません. )

４．注意 ホームディレクトリのパーミッションは、group,otherにwrite権限を与えないでください. ~/.sshのパーミッションは"700"にしてください. ~/.ssh/authorized_keysのパーミッションは"600"にしてください.

= 2012年5月上旬 =

5/10スパコン講習会での質問への回答
(2012.05.10)

質問
UGEではジョブを一時停止できますか？

答え
"qmod -sj"で対象ジョブのジョブIDを指定することでサスペンドできます. $ qmod -sj ジョブID

サスペンドしたジョブを再開する場合は"qmod -usj"コマンドを使用します. $ qmod -usj ジョブID

質問
UGEでは一時停止状態のジョブを他のキューで再開できますか？

答え
できません. リスケジュール(最初からやり直し)であれば"qmod -rj"コマンドで可能です. コマンド発行前にqalterコマンドでジョブのリソース要求内容を変更した後でそのジョブに対して"qmod -rj"を実行すると、 変更後のリソース要求に適合するキューでジョブが最初から再実行されます. $ qmod -rj ジョブID

質問
Lustreのストライプサイズ変更で、すでにデータが存在するディレクトリのストライプサイズ変更した場合、既存のデータに影響はありますか？

答え
ストライプサイズ変更前から存在するデータは、ストライプサイズ変更の影響を受けません. 変更後に該当ディレクトリに作成するファイルは影響を受けます.

質問
Lustreのストライプサイズ変更で、ストライプサイズをOSSの台数(12台)以上にした場合どうなりますか？

答え
ストライプはされますが、特に意味はありません. LustreアクセスのボトルネックはInfiniBandなので、ストライプサイズをOSSの台数以上にする意味はありません.

計算機リソースの拡張申込
(2012.05.10)

質問
高速シーケンサーデータ解析にスパコンシステムを利用させて いただいています. ディスククォータが1TBで不足しています. 拡張をお願いしたいのですが、どのような情報をお伝えしたら よいですか？お教えください.

答え
ご利用ありがとうございます.

承りますので、お手数をお掛けしますが、以下の内容について 回答をお願いします.

変更理由: （変更する理由を入力） 必要なDISK量: （例：ＸＸＴＢ～無制限） 同時ジョブ数: （５００～無制限） 利用課題: （課題タイトルを入力） 詳細理由: （250字以上500字以内で利用用途を詳細に入力、共同研究の場合は共同研究先を記載） 利用期間: （利用期間を入力（例：3カ月、6ヶ月、1年 等）） 利用者: 利用責任者:

個人のMacからスパコン上のホームディレクトリをマウントし、IGVで閲覧できますか？
(2012.05.10)

質問
/home/User/ 以下のファイルにMacからアクセスしたいのですが、 Finderの「サーバへ接続」からアクセスすることは可能でしょうか？

スパコンの計算によって得られたbigwigファイルを、私のMacのゲノムビューア （IGV）で見ることを目的としております.

答え
スパコンはssh接続のみを許可しており、MacのFinder単体では、ssh接続は不可能です. フリーソフトを使用することで可能となります. 以下の手順によりマウントできます. ①macfuse-core-10.5-2.1.9をインストール URL→http://www.tuxera.com/mac/macfuse-core-10.5-2.1.9.dmg ダウンロードする時の注意点 ダウンロードの接続が悪いため、ダウンロードが完全に終わる前に 終了してしまうことがあります. ダウンロードを100％完了させてください. ②Macfusionのインストール URL→http://macfusionapp.org/ ③Macfusionを利用する 起動するとリストウインドウが表示されるので、左下の＋ボタンからsshfsを選択し、 Host, Path, User Name, Passwordを入力します. リストに設定したサーバが表示されるので、Mountをクリックしてマウントします.

スパコンアカウントのパスワードを忘れました
(2012.05.10)

質問
DDBJのスパコンのアカウントのパスワードを忘れてしまい、ロックがかかってしまいました. アカウントのパスワードの再発行させていただけないでしょうか？ 恐縮ですが、よろしくお願いいたします.

答え
お世話になっております. スパコンSEを担当しております芦澤と申します.

アカウントがロックされておりましたのでアンロック致しました. また、パスワードについては、初期パスワードに変更しましたので、 スパコンにログイン可能かご確認をお願い致します.

以上、よろしくお願い致します.

DRAなど、DDBJのFTPサイト上のデータに直接アクセスできますか？
(2012.05.10)

答え
直接アクセスできますが、 DRA (short read archive)などFTPサイトに置いてあるデータの場合は、 データが省電力ディスクに置いてありますので、直接アクセスして計算するよりも、 いったんスパコンユーザーのホームディレクトリ（Lustreファイルシステム上） にコピーしたほうがずっと速いです.

コピーについてはFTP、Asperaを介するか、 MAIDディスクを直接マウントを介する方法があります.

直接マウントによる方法 以下のようにすると省電力ディスクにアクセスできます.

例: ssh youraccount@gw.ddbj.nig.ac.jp ssh t347 cd /usr/local/ftp/ddbj_database/ cp some_file /home/youraccount/somewhere t347は352台あるthinnodeのうちの1つのことで、このノードにだけ省電力ディスクがマウントされています.

DDBJのblastpとNCBIのblastpで結果が違いますがなぜでしょうか.
(2012.05.09)

答え
DDBJのblastpでは現在のところlow complexity filterがデフォルトでONになっていて、

一方、NCBIのblastpのサイトでは現在のところこれがデフォルトでOFFになっているためでした.

参考：DDBJ BLASTとNCBI BLASTのURL
 * http://blast.ddbj.nig.ac.jp/blast/blastp?lang=ja
 * http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&BLAST_PROGRAMS=blastp&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome

MiGAPの処理速度向上に関するやりとり
(2012.05.09)

大久保先生　首題に関する大山報告をお送りします. 菅原

１．高速化10倍を達成 ・ 律速要因は、1 slot（コア）当たりのメモリーサイズが4GBであること ・ MiGAPで使用している主たるデータベースのサイズは9GB弱 1 qsub投入にあたり、10GBを要求 ・ 現在使用しているweek_hdd.qとweek_ssd.qの合計メモリーが 8000GBのため、同時導入数は800qsubが上限 ・ この場合は使用するslotは最大800個であるが slotは2000のうち800しか使用できない ・　month_gpu.qを使うと、さらに1.5倍になる見込 ２．DBを分割して4GBメモリーに収まるようにチューニングし month_gpu.qを使うと、40倍までいけそう

菅原先生、大山様

小笠原です. 現在、一般研究用week_hdd.q, week_ssd.qに流れているジョブは大部分MiGAPのものと思われます. 添付の図の通り、メモリ要求量と実際のメモリ使用量が多少乖離しており、 実際にはメモリには多少余裕があると思われますので、 できればそこを調整頂けるとさらにジョブが投入できて速度が向上するかと思います. （６月ごろにはパイプラインも動いてきて今度は混みすぎでジョブが待ちになるかもしれませんし. . ）

小笠原様

ご指摘ありがとうございました.

ところで、MiGAPが発行した各qsubがどのslotで、どの程度memoryを使用し、処理時間が どの程度であったかという、細かいログは採取可能ですか？

-- インシリコバイオロジー株式会社 大山　彰 ---

小笠原様

それから、ひとつ気になっていることがあるのですが. ..

先週の金曜日（5月6日）からweek_ssd.qで、一定の数のqsubが走っています. これは、MiGAPで同時にかなり大量のqsubが投入された時刻と一致しています.

その時に投入されたMiGAP qsubは全部正常に終了しているのですが、もしかすると ゾンビ的なプロセスが残っているのではないかと危惧しています.

week_ssd.qなので今週の金曜日には強制終了されると思いますが、その前に それらが何であるかを調べることはできませんか？

大山様

お世話になっております、SEの川越です.

MiGAPのqsub発行結果のログは以下のコマンドで確認できます.

% qreport -o (owner) -b (ログ対象スタート時間) -e (ログ対象エンド時間)　 -l (表示フォーマット)

例）本日10:00～10:03の間にmigapが解析終了したログの表示 [kawagoe@t216 ~]$ qreport -o w3migap -b 201205091000 -e 201205091003 -l | head -20 :
 * owner| jobid|     task|slot|  pe_id| granted_pe|ext|fail|      qname| host|jobname                   |      end_time|  clock| mmem|rmem|  r_q| r_cpu|qdel|fail_txt  |         Rq|  Rm|Ropt                                    |
 * w3migap|2533214|undefined|  1|   NONE|       NONE|  0|   0| week_hdd.q|t248i|w3migap_blast_LDAP_baireme|20120509-10:02|    199| 9.7G| 10G| NONE|  NONE|    |          |           |    |                                        |
 * w3migap|2533360|undefined|  1|   NONE|       NONE|  0|   0| week_hdd.q|t298i|w3migap_blast_LDAP_baireme|20120509-10:02|     84| 9.7G| 10G| NONE|  NONE|    |          |           |    |                                        |
 * w3migap|2533389|undefined|  1|   NONE|       NONE|  0|   0| week_hdd.q|t244i|w3migap_blast_LDAP_baireme|20120509-10:02|     74| 9.7G| 10G| NONE|  NONE|    |          |           |    |

ログ結果では、メモリ要求 10G に対し実使用量 9.7G ですので、理想的な使用 状況と 思われます. 処理時間は100～200秒程度です.

jobid: ジョブID host: 実行ホスト end_time:終了時間 clock: 処理時間(秒) mmem:マックスメモリ量 rmem: 要求メモリ量

qreportコマンドのその他のオプションは　%qreport -h でご確認ください.

以上、宜しくおねがいいたします.

川越様

小笠原です. 早速どうもありがとうございます. そうすると要求と実際が乖離しているジョブはどれでしょう？？ （もしかして表示してる集計テーブルのほうが違ってたりして. . ）

大山様　　CC:小笠原先生

お世話になっております、SEの川越です.

qreport結果を広範囲でみたところ、maxメモリ量が3.5Gのケースも見受けられま した. こちらが影響していると考えられます. 調整可能であればご検討よろしくお願いいたします.

[kawagoe@t216 ~]$ qreport -o w3migap -b 201205091445 -e 201205091450 -l | more

txt |         Rq|  Rm|Ropt                                    | |          |    |                                        |    |           |    |                                        |
 * owner| jobid|     task|slot|  pe_id| granted_pe|ext|fail|      qname| host|jobname                        |      end_time|  clock| mmem|rmem|  r_q| r_cpu|qdel|fail_
 * w3migap|2595401|undefined|  1|   NONE|       NONE|  0|   0| week_hdd.q|t284i|w3migap_blast_LDAP_baireme     |20120509-14:49|     31| 3.5G| 10G| NONE|  NONE|    |
 * w3migap|2595385|undefined|  1|   NONE|       NONE|  0|   0| week_hdd.q|t288i|w3migap_blast_LDAP_baireme     |20120509-14:49|     35| 3.5G| 10G| NONE|  NONE|    |
 * w3migap|2595382|undefined|  1|   NONE|       NONE|  0|   0| week_hdd.q|t288i|w3migap_blast_LDAP_baireme     |20120509-14:49|     33| 3.5G| 10G| NONE|  NONE|    |

以上、よろしくお願いいたします.

川越様

情報ありがとうございました.

3.5GBのjobは、おそらくかなり短い処理時間で終了しているのではないかと思いますが、どうでしょうか？

それでチューニングを後回しにしています. 余裕ができたところで、対応したいと思います. よろしくお願いいたします.

-- インシリコバイオロジー株式会社 大山　彰 ---

大山様

お世話になっております、SEの川越です. ご連絡ありがとうございます.

確かに、9.7GBのジョブは100～200秒に対し、3.5GBは30秒程度と見てとれました. 小笠原先生からご案内のあったUGEキュー状況の表は、ある時点でのスナップ ショットを 取っておりますので、処理時間が短くても、その時点で稼働中でありかつ多量に ありますと 結果として状況表のようにメモリ利用枠に余裕が少なく見えてしまいます.

MiGAPのジョブは処理時間が短いので他ユーザのジョブには影響は少ないですが、 UGEキュー状況表はユーザがジョブ投入の判断の目安となる情報ですし、MiGAP 投入数の上限を上げることで高速化も期待できるとのことですので、後々チュー ニングの ご検討を宜しくお願いいたします.

以上です.

川越様

ご連絡ありがとうございました.

UGE キュー状況がスナップショットであることは理解いたしました.

連休中にこのUGEキュー状況を見て楽しんでいたのですが、 最後の土日には、MiGAPのジョブがなくなったにも関わらず、 一定のキューがweek_hdd.qとweek_ssd.qに見えていたたので、 気になっています.

スナップショットで現在実行中のProcessのこれまでのElapsed Timeを見ることはできませんか？

先週の金曜日から連続で実行されているprocessがかなり多くありそうなので、 これがMiGAPのゾンビではないかと恐れているのです.