MPI在Linux下的配置总结

hpujsj 2010-07-05

网上有一篇文章写得很好,照着配置一直有问题,现在终于弄好了。把遇到的问题记录下来!

此文是由Linux菜鸟 + mpi初学者原创,不对的地方请见指教!

在安装之前,先要把 节点 配置好!

1.在每台机器上配置hosts

打开 /etc/hosts

127.0.0.1       localhost.localdomain localhost  下面

加入

192.168.1.100 Ubuntu2

192.168.1.101 ubuntu

ubuntu, ubuntu2 是计算机名字,通过命令 uname -n可以看到,最好每个节点起不同的名字。然后把 ip machinename写入就行了。

2.配置ssh

mpi 要求主机能无密码登录所有子机,按照网上的方法来就行了,

在主机上:

先 ssh-keygen -t  rsa 得到 id_rsa 和 id_rsa.pub

默认保存在 $HOME/.ssh/ 里,把 id_rsa.pub 复制一份叫authorized_keys。把$HOME/.ssh/ 所有的文件,复制到子机上用。

其实,这一步主要是把authorized_keys复制过去,让 id_rsa 能开启 id_rsa.pub 的锁。

主机ssh 所有子机2次。

如果第2次还要求输入密码,那么 ssh-agent 没开启或者id_rsa没有加入。

或者出现这个错误:Could not open a connection to your authentication agent

请:

ssh-agent bash

ssh-add id_rsa

期间如果遇到问题,重新做了一编,可能会遇到 ssh 说目标的密码更改,不让登录等等这样的问题,因为ssh记录了登录的情况,并放到了 $HOME/.ssh/known_hosts 里。把这个文件删除,或者 ssh-keygen -R,清除已知 ssh 就行了。

3.安装MPI

关于安装最好参照下载下来源码里的README。最好使用源码编译,所有机器的MPI最好是同一个版本,用同一种方法安装,安装在同一个地方!

以下几步在所有机器上分别进行。

最简单的是

./configure

make

make install

就行了

非默认安装得改以下PATH。

然后得在 $HOME/ 建个 .mpd.conf 的文件

填入:

MPD_SECRETWORD=xxxx

xxxx为mpd 的密码。

为这个文件加入权限:

chmod 600 .mpd.conf

用 ls -l .mpd.conf  可以看这个文件的权限,应该显示你的用户名。

如果发现显示是 root 那肯定是你用 sudo 建的,重新建个就行了。

mpd想要启动还得有个 mpd.hosts ,也放在 $HOME/

里面写入你所拥有的节点的计算机名字。

比如:

ubuntu, ubuntu2

4.检查和测试

做到这一步,基本就完成了。

mpd -n 2

如果成功,那太好了。写一个最简单的mpi程序,或者用examples里的 cpi测试,

mpiexec -n 2 cpi

然后就可以出现3.1415.......。

但是很有可能出现这个错误:

mpdboot_ubuntu (handle_mpd_output 420): from mpd on ubuntu2, invalid port info:

no_port

大部分原因都是ssh配置得不对,子机没有开机,子机和主机MPI安装的位置不一样,都会出现这个错误!

用 mpdcheck -f mpd.hosts -ssh

来检查错误。

我就因为主机是编译安装,子机是用deb包装的,而位置不一致运行mpdboot -n 2时总报错。

5.最后的一招

如果 mpdboot 总是失败,那么只有手动启动各个节点的mpd了。

在主机上先启动mpd: mpd&

然后mpdtrace -l

可以看到 ubuntu_45131 (192.168.1.101) 这样的字样。

这个45131就是主机mpd的端口

在子机上这样做

mpd -h ubuntu -p 45131

主机这时再mpdtrace 应该也可以看到子机也加入mpd环了。

6.关于mpiexec

mpiexec -n 后面的这个参数,网上有的说是机器数,显然不是,这个是要启动的进程数,至于怎么分配,我也没弄明白。

比如你有两台机器 mpiexec -n 4 cpi 那每台运行两个 cpi 的进程。

mpdboot -n 2 这个2是两个机器,而且不能超过在mpd.hosts里定义过的机器数量。

相关推荐