关于slurm页面文件配置问题的问题

他的最新文章
他的热门文章
您举报文章:
举报原因:
原文地址:
原因补充:
(最多只允许输入30个字)他的最新文章
他的热门文章
您举报文章:
举报原因:
原文地址:
原因补充:
(最多只允许输入30个字)他的最新文章
他的热门文章
您举报文章:
举报原因:
原文地址:
原因补充:
(最多只允许输入30个字)下次自动登录
现在的位置:
& 综合 & 正文
安装slurm与重启slurm
1. 先安装openssl和munge
2. install
Install(caoj7)
./configure --prefix=/usr/local --sysconfdir=/usr/local/etc
--enable-debug
sudomake install
2. Slurm.conf (If revised, slurmctld andslurmd
need toreboot)
–Use doc/html/configurator.html to createslurm.conf
# slurm.conf file generated by configurator easy.html.
# Put this file on all nodes of your cluster.
# See the slurm.conf man page for more information.
ControlMachine=vm1
#ControlAddr=
#MailProg=/bin/mail
MpiDefault=none
#MpiParams=ports=#-#
ProctrackType=proctrack/pgid
ReturnToService=1
SlurmctldPidFile=/var/run/slurmctld.pid
#SlurmctldPort=6817
SlurmdPidFile=/var/run/slurmd.pid
#SlurmdPort=6818
SlurmdSpoolDir=/var/spool/slurmd
SlurmUser=caoj7
SlurmdUser=caoj7
StateSaveLocation=/var/spool
SwitchType=switch/none
TaskPlugin=task/none
#KillWait=30
#MinJobAge=300
#SlurmctldTimeout=120
#SlurmdTimeout=300
# SCHEDULING
FastSchedule=1
SchedulerType=sched/backfill
#SchedulerPort=7321
SelectType=select/linear
# LOGGING AND ACCOUNTING
AccountingStorageType=accounting_storage/none
ClusterName=cluster
#JobAcctGatherFrequency=30
JobAcctGatherType=jobacct_gather/none
#SlurmctldDebug=3
#SlurmctldLogFile=
#SlurmdDebug=3
#SlurmdLogFile=
# COMPUTE NODES
NodeName=vm[2-5] CPUs=4 State=UNKNOWN
PartitionName=compute Nodes=vm[2-5] Default=YES MaxTime=INFINITE State=UP
–/usr/local/etc/slurm.conf (revised
SlurmUser=caoj7 SlurmdUser=caoj7)
–sudoscp /usr/local/etc/slurm.conf
vm2:/usr/local/etc/
–sudochown caoj7:caoj7 /usr/local/etc/slurm.conf (etc.)
3. Createfile anddir
–sudo touch /var/run/slurmctld.pid
osudo chown caoj7:caoj7 /var/run/slurmctld.pid
–sudo touch /var/run/slurmd.pid
osudo chown caoj7:caoj7 /var/run/slurmd.pid
otouch /var/run/slurmd.pid
–sudo mkdir /var/spool/slurmd
osudo chown -R caoj7:caoj7 /var/spool/slurmd
–sudo touch /var/spool/job_state
osudo chown caoj7:caoj7 /var/spool/job_state
–sudo touch /var/spool/resv_state
osudo chown caoj7:caoj7 /var/spool/resv_state
–sudo touch /var/spool/node_state
osudo chown caoj7:caoj7 /var/spool/node_state
–sudo touch /var/spool/trigger_state
osudo chown caoj7:caoj7 /var/spool/trigger_state
4. Startup
oslurmctld -Dvvvvvv
oIf/var/run/slurmctld.pid
is removed, use vi to re-createit
oslurmd -Dvvvvvv
oIf/var/run/slurmd.pid
is removed, use vi to re-createit
Slurmctld error: authentication: expiredcredential
isnot sync.
–Date –s “ 14:27:00”
munge and slurm
Ifnode002 can’t register to master
–Might becausessh
sshmasternode(e.g., node001) fromnode002
salloc 出错
[caoj7@vm2mpi]$salloc -N2
o-bash:./salloc: /lib/ld-linux.so.2: bad ELFinterpreter: No such file ordirectory
–[caoj7@vm1
mpi]$ ldd /usr/local/bin/salloc
linux-vdso.so.1 =&
(0x00007fff0ebff000)
libdl.so.2 =&/lib64/libdl.so.2 (0xf000000)
libpthread.so.0 =&/lib64/libpthread.so.0 (0xe000000)
libc.so.6 =& /lib64/libc.so.6(0xdc00000)
/lib64/ld-linux-x86-64.so.2(0xd400000)
o[caoj7@vm1mpi]$ cd /lib
o[caoj7@vm1lib]$ln -s/lib64/ld-linux-x86-64.so.2 ld-linux.so.2
但后来又出错了,unlink后正确
------------------------------------------------------------------
1. 启动munge
[caoj7@vm5 ~]$ sudo /etc/init.d/munge start
2. 启动slurmctld或者slurmd
[caoj7@vm5 ~]$ slurmd -D vvvvvvslurmd: slurmd version 2.4.4 startedslurmd: error: Unable to open pidfile `/var/run/slurmd.pid':Permission deniedslurmd: slurmd started on Fri 30 Nov :55 +0000slurmd: CPUs=4 Sockets=4 Cores=1 Threads=1 Memory=15949 TmpDisk=21851 Uptime=846^Cslurmd: error: Unable to remove pidfile `/var/run/slurmd.pid': No such file or directoryslurmd: Slurmd shutdown completing
[caoj7@vm5 ~]$ sudo touch /var/run/slurmd.pid
[caoj7@vm5 ~]$ sudo chown caoj7:caoj7 /var/run/slurmd.pid
[caoj7@vm5 ~]$ slurmd -D vvvvvvslurmd: slurmd version 2.4.4 startedslurmd: error: Possible corrupt pidfile `/var/run/slurmd.pid'slurmd: slurmd started on Fri 30 Nov :48 +0000slurmd: CPUs=4 Sockets=4 Cores=1 Threads=1 Memory=15949 TmpDisk=21851 Uptime=899^Cslurmd: error: Unable to remove pidfile `/var/run/slurmd.pid': Permission deniedslurmd: Slurmd shutdown completing
[caoj7@vm5 ~]$ touch /var/run/slurmd.pid
[caoj7@vm5 ~]$ slurmd -D vvvvvvslurmd: slurmd version 2.4.4 startedslurmd: slurmd started on Fri 30 Nov :14 +0000slurmd: CPUs=4 Sockets=4 Cores=1 Threads=1 Memory=15949 TmpDisk=21851 Uptime=925
【上篇】【下篇】RedHat安装SLURM_Linux教程_Linux公社-Linux系统门户网站
你好,游客
RedHat安装SLURM
来源:Linux社区&
作者:tomxice
之前在Windows下用虚拟机跑程序,后来被学长鄙视,就改用linux平台,结果由于种种原因virtualbox一装虚拟机就挂掉,所以只好在物理节点上做实验了。
其实和下面差不多的Ubuntu下配置Slurm,没有那么简单的apt-get使用,就从源码编译。
munge的路径好像不太一样,不是/xxxx而是/usr/local/xxxx。后面还会说到这个问题。
SLURM会提示出错
plugin_load_from_file: dlopen(/usr/local/lib/slurm/crypto_munge.so): libmunge.so.2: cannot open shared object file: No such file or directory
还是缺munge的包,上网搜一个libmunge.so.2下就好了.
查看版本号的方式
cat /etc/issue
lsb_release -a
cat /etc/-release
不过我用这几个命令出来的结果不一样啊,有的说是EL4,有的说是EL5,所以我就下了旧版本的库。。。
运行slurm报错没有找到/var/run/munge/munge.socket.2。
到/var/run里面去建个链接到/usr/local/var/run/munge就好了。
因为是物理机器,所以比虚拟机的环境要复杂一点点。比如我的几个节点的时间是不同步的。这样munge就不能正常工作了。
date -s &Sep 15 12:30:07"
修改时间为9月15xxxxxx
因为每台机器都不一样,所以在每台机器上建的用户tomxice的uid和gid都不同。。。然后munge又不干了。
usermod -u uid username 改变用户uid
groupmod -g gid groupname 改变组的gid
usermod -g groupname username 将用户加到组里(我很纳闷为什么我的tomxice建出来不在tomxice组里面)
似乎就可以工作了,OY~
相关资讯 & & &
& (05/12/:13)
& (10/01/:45)
& (05/04/:06)
& (02/26/:26)
& (09/18/:58)
& (02/27/:58)
   同意评论声明
   发表
尊重网上道德,遵守中华人民共和国的各项有关法律法规
承担一切因您的行为而直接或间接导致的民事或刑事法律责任
本站管理人员有权保留或删除其管辖留言中的任意内容
本站有权在网站内转载或引用您的评论
参与本评论即表明您已经阅读并接受上述条款}

我要回帖

更多关于 dnf掉帧不是配置问题 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信