[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

globus-job-run fail : error code 74



はじめまして。
電通大IS科並列処理学講座 弓場・本多研究室の渡邊と申します。
globus-job-run で error code 74 が発生して困っております。
解決策等、御教授ください...


症状:
  異なるドメインの2つのマシンを使って、一方(gex1.yuba.is.uec.ac.jp)
  から他方(koume.hpcc.jp)に対して globus-job-run を行ったところ、

  $ globus-job-run "koume.hpcc.jp" /bin/date
  GRAM Job submission failed because the job manager
   failed to open stderr (error code 74)

  となりました。
  また、-stdout, -stderr オプションを使って実行したところ、

  $ globus-job-run -stdout globus.stdout -stderr globus.stderr
  "koume.hpcc.jp" /bin/date


  ↑このまま応答が返ってこない(^Cで終了させています)で、
  リモートホスト上の $HOME/globus.stdout に /bin/date の
  実行結果と思われる日付が書き込まれていました
  (globus.stderrは空でした)。


確認したこと:
  http://www.globus.org/about/faq/errors.html
  の error code 73 に似ていたので、以下を確認しました:

  ・globus-job-run実行ホスト(gex1)にて:
    globus-hostname:正しくFQDNを返していました。
    Firewallは通していません。

    リモートホスト(koume)上ではNIS・NFSサーバが動作しており、
    ホームディレクトリがNFSで他のリモートマシンと共有されていますが、
    ファイル操作ではNFSに関するトラブルは起きていないと思います。

  使っている Globus Toolkit は双方のホストともに、version 2.2 です。


リモートホスト上のログを見たところ、結果出力のために stdout, stderr
を準備するところで失敗しているのではないかと私は推測しているのですが、
解決策がわからないので、御教授いただけたらと思います。
よろしく御願いいたします。


電気通信大学 情報工学科4年 所属
大学院情報システム学研究科 情報ネットワーク学専攻
並列処理学講座 弓場・本多研究室 在室
渡邊 啓正(Watanabe Hiromasa)
e-mail : watanabe@yuba.is.uec.ac.jp

↓リモートホスト上のログです↓


----$GLOBUS_LOCATION/var/globus-gatekeeper.log on koume----

Notice: 6: Got connection 130.153.208.161 at Fri Dec 27 13:11:48 2002

Notice: 5: Authenticated globus user: /O=Grid/O=Globus/OU=yuba.is.uec.ac.jp/CN=H
iromasa Watanabe
Notice: 0: GRID_SECURITY_HTTP_BODY_FD=8
Notice: 5: Requested service: jobmanager
Notice: 5: Authorized as local user: hiromasa
Notice: 5: Authorized as local uid: 213
Notice: 5:           and local gid: 101
Notice: 0: executing /usr/local/gt2/libexec/globus-job-manager
Notice: 0: GRID_SECURITY_CONTEXT_FD=11
Notice: 0: Child 10440 started


----$HOME/gram_job_mgr_10440.log on koume----

12/27 13:11:48 JM: Security context imported
12/27 13:11:48 JM: Adding new callback contact (url=https://gex1.yuba.is.uec.ac.
jp:32957/, mask=1048575)
12/27 13:11:48 JM: Added successfully
12/27 13:11:48 Pre-parsed RSL string: &("rsl_substitution" = ("GLOBUSRUN_GASS_UR
L" "https://gex1.yuba.is.uec.ac.jp:32956" ) )("stderr" = $("GLOBUSRUN_GASS_URL")
 # "/dev/stderr" )("stdout" = $("GLOBUSRUN_GASS_URL") # "/dev/stdout" )("executa
ble" = "/bin/date" )
12/27 13:11:48
<<<<<Job Request RSL
&("rsl_substitution" = ("GLOBUSRUN_GASS_URL" "https://gex1.yuba.is.uec.ac.jp:329
56" ) )("stderr" = $("GLOBUSRUN_GASS_URL") # "/dev/stderr" )("stdout" = $("GLOBU
SRUN_GASS_URL") # "/dev/stdout" )("executable" = "/bin/date" )
>>>>>Job Request RSL
12/27 13:11:48
<<<<<Job Request RSL (canonical)
&("rslsubstitution" = ("GLOBUSRUN_GASS_URL" "https://gex1.yuba.is.uec.ac.jp:3295
6" ) )("stderr" = $("GLOBUSRUN_GASS_URL") # "/dev/stderr" )("stdout" = $("GLOBUS
RUN_GASS_URL") # "/dev/stdout" )("executable" = "/bin/date" )
>>>>>Job Request RSL (canonical)
12/27 13:11:48 JM: Evaluating RSL Value12/27 13:11:48 JM: Evaluated RSL Value to
 GLOBUSRUN_GASS_URL12/27 13:11:48 JM: Evaluating RSL Value12/27 13:11:48 JM: Eva
luated RSL Value to https://gex1.yuba.is.uec.ac.jp:3295612/27 13:11:48 Job Manag
er State Machine (entering): GLOBUS_GRAM_JOB_MANAGER_STATE_PRE_MAKE_SCRATCHDIR
12/27 13:11:48 Job Manager State Machine (entering): GLOBUS_GRAM_JOB_MANAGER_STA
TE_MAKE_SCRATCHDIR
12/27 13:11:48
<<<<<Job RSL
&("environment" = ("HOME" "/home/hiromasa" ) ("LOGNAME" "hiromasa" ) )("rslsubst
itution" = ("GLOBUSRUN_GASS_URL" "https://gex1.yuba.is.uec.ac.jp:32956" ) )("std
err" = $("GLOBUSRUN_GASS_URL") # "/dev/stderr" )("stdout" = $("GLOBUSRUN_GASS_UR
L") # "/dev/stdout" )("executable" = "/bin/date" )
>>>>>Job RSL
12/27 13:11:48
<<<<<Job RSL (post-eval)
&("environment" = ("HOME" "/home/hiromasa" ) ("LOGNAME" "hiromasa" ) )("rslsubst
itution" = ("GLOBUSRUN_GASS_URL" "https://gex1.yuba.is.uec.ac.jp:32956" ) )("std
err" = "https://gex1.yuba.is.uec.ac.jp:32956/dev/stderr" )("stdout" = "https://g
ex1.yuba.is.uec.ac.jp:32956/dev/stdout" )("executable" = "/bin/date" )
>>>>>Job RSL (post-eval)
12/27 13:11:48
<<<<<Job RSL (post-validation)
&("directory" = $("HOME") )("stdin" = "/dev/null" )("count" = "1" )("job_type" =
 "multiple" )("gram_my_job" = "collective" )("dry_run" = "no" )("environment" =
("HOME" "/home/hiromasa" ) ("LOGNAME" "hiromasa" ) )("rslsubstitution" = ("GLOBU
SRUN_GASS_URL" "https://gex1.yuba.is.uec.ac.jp:32956" ) )("stderr" = "https://ge
x1.yuba.is.uec.ac.jp:32956/dev/stderr" )("stdout" = "https://gex1.yuba.is.uec.ac
.jp:32956/dev/stdout" )("executable" = "/bin/date" )
>>>>>Job RSL (post-validation)
12/27 13:11:48
<<<<<Job RSL (post-validation-eval)
&("directory" = "/home/hiromasa" )("stdin" = "/dev/null" )("count" = "1" )("job_
type" = "multiple" )("gram_my_job" = "collective" )("dry_run" = "no" )("environm
ent" = ("HOME" "/home/hiromasa" ) ("LOGNAME" "hiromasa" ) )("rslsubstitution" =
("GLOBUSRUN_GASS_URL" "https://gex1.yuba.is.uec.ac.jp:32956" ) )("stderr" = "htt
ps://gex1.yuba.is.uec.ac.jp:32956/dev/stderr" )("stdout" = "https://gex1.yuba.is
.uec.ac.jp:32956/dev/stdout" )("executable" = "/bin/date" )
>>>>>Job RSL (post-validation-eval)
12/27 13:11:48 JMI: Getting RSL output value
12/27 13:11:48 JMI: Processing output positions
12/27 13:11:48 JMI: Getting RSL output value
12/27 13:11:48 JMI: Processing output positions
12/27 13:11:48 Job Manager State Machine (entering): GLOBUS_GRAM_JOB_MANAGER_STA
TE_REMOTE_IO_FILE_CREATE
12/27 13:11:48 JM: Opening output destinations
12/27 13:11:48 JM: stdout goes to x-gass-cache://koume.hpcc.jp/10440.1040962308/
dev/stdout
12/27 13:11:48 JM: stderr goes to x-gass-cache://koume.hpcc.jp/10440.1040962308/
dev/stderr
12/27 13:11:48 JM: Opening https://gex1.yuba.is.uec.ac.jp:32956/dev/stdout
12/27 13:11:48 JM: Opened GASS handle 1.
12/27 13:11:48 JM: exiting globus_l_gram_job_manager_output_destination_open()
12/27 13:11:48 JM: Opening https://gex1.yuba.is.uec.ac.jp:32956/dev/stderr
12/27 13:11:48 JM: Opened GASS handle 2.
12/27 13:11:48 JM: exiting globus_l_gram_job_manager_output_destination_open()
12/27 13:11:48 stdout or stderr is being used, starting to poll
12/27 13:11:48 JM: Finished opening output destinations
12/27 13:11:48 Job Manager State Machine (entering): GLOBUS_GRAM_JOB_MANAGER_STA
TE_EARLY_FAILED
12/27 13:11:48 Job Manager State Machine (entering): GLOBUS_GRAM_JOB_MANAGER_STA
TE_EARLY_FAILED_CLOSE_OUTPUT
12/27 13:11:48 Job Manager State Machine (entering): GLOBUS_GRAM_JOB_MANAGER_STA
TE_EARLY_FAILED_PRE_FILE_CLEAN_UP
12/27 13:11:48 Job Manager State Machine (entering): GLOBUS_GRAM_JOB_MANAGER_STA
TE_EARLY_FAILED_FILE_CLEAN_UP
12/27 13:11:48 Job Manager State Machine (entering): GLOBUS_GRAM_JOB_MANAGER_STA
TE_EARLY_FAILED_SCRATCH_CLEAN_UP
12/27 13:11:48 JMI: testing job manager scripts for type fork exist and permissi
ons are ok.
12/27 13:11:48 JMI: completed script validation: job manager type is fork.
12/27 13:11:48 JMI: cmd = cache_cleanup
Fri Dec 27 13:11:49 2002 JM_SCRIPT: New JobManager created.
12/27 13:11:49 Job Manager State Machine (entering): GLOBUS_GRAM_JOB_MANAGER_STA
TE_EARLY_FAILED_CACHE_CLEAN_UP
12/27 13:11:49 Job Manager State Machine (entering): GLOBUS_GRAM_JOB_MANAGER_STA
TE_EARLY_FAILED_RESPONSE
12/27 13:11:49 JM: before sending to client: rc=0 (Success)
12/27 13:11:49 Job Manager State Machine (exiting): GLOBUS_GRAM_JOB_MANAGER_STAT
E_FAILED_DONE
12/27 13:11:49 JM: in globus_gram_job_manager_reporting_file_remove()
12/27 13:11:49 Job Manager State Machine (entering): GLOBUS_GRAM_JOB_MANAGER_STA
TE_FAILED_DONE
12/27 13:11:49 JM: in globus_gram_job_manager_reporting_file_remove()
12/27 13:11:49 JM: exiting globus_gram_job_manager.