本文共 3298 字,大约阅读时间需要 10 分钟。
在 Windows 电脑上,运行 ipconfig 查看每台虚拟机的 IP 地址、子网掩码和网关。
在每台虚拟机上运行 ifconfig 检查虚拟网络接口信息,默认情况下,网络接口名为 "ens33"。
使用以下命令设置静态 IP。
sudo gedit /etc/network/interfaces
在文件中添加以下内容:
# 主网络界面auto ens33iface ens33 inet staticaddress 192.168.31.180gateway 192.168.31.1netmask 255.255.255.0
service networking restart
在运行完成后检查 ifconfig 查看每台虚拟机是否获得预期的静态 IP。
使用 ping 检查与外部网络是否能够通信。
ping 8.8.8.8
如信息无法访问外网,说明可能存在 DNS 配置问题,检查 /etc/resolv.conf 文件:
sudo gedit /etc/resolv.conf
添加以下 DNS 服务器地址:
nameserver 8.8.8.8nameserver 8.8.4.4
sudo gedit /etc/hosts
在文件末尾添加以下内容:
192.168.31.180 spark1192.168.31.181 spark2192.168.31.182 spark3
添加内容后,各虚拟机之间可以通过 ping 命令进行测试。
打开 C:\Windows\System32\drivers\etc\hosts 文件,按照上述格式添加相同内容。
sudo ufw disable
sudo setenforce 0
(备注:由于安装的是 Ubuntu,可能这步骤可以跳过。)
确保所有虚拟机上都有最新的 SSH 客户端支持。
sudo apt-get install openssh-client
默认情况下,SSH 支持 22 端口。
若是新安装的虚拟机通常会使用新的 root 密码。
sudo passwd root
sudo gedit /etc/ssh/sshd_config
在文件末尾添加以下修改:
PermitRootLogin yes
并确保设置的 root 密码已知。
在 winscp 中添加各虚拟机的 SSH 连接,并上传所需文件。
sudo apt-get install telnet
使用 scp 命令进行文件传输和共享,如:
scp filename.txt erin@spark2:/path/to/destination
在所有虚拟机上生成私钥文件和公钥文件:
ssh-keygen -t rsa
默认生成的文件位于 ~/.ssh/id_rsa 和 ~/.ssh/id_rsa.pub。
将每台虚拟机的公钥添加到其他虚拟机的 ~/.ssh/authorized_keys 文件中。
在主机上测试免密登录:
ssh spark1
如需远程登录到另一台机器,完成公钥传递:
ssh-copy-id -iusername@other-host
由于 Hadoop 对 Java 环境有要求,我们需要安装最新的 Java JDK。
从 UB部门下载 JDK 软件包,通过 winscp 上传到 /usr/local 文件夹中,因该目录通常只有 root 具有读写权限。
sudo tar -zxvfjdk-.tar.gz -C /usr/local/jvm/
sudo gedit /etc/profile
在文件末尾添加以下内容:
export JAVA_HOME=/usr/local/jvm/jdk-export JRE_HOME=${JAVA_HOME}/jreexport CLASSPATH=/.:${JAVA_HOME}/lib:${JRE_HOME}/libexport PATH=/usr/local/jvm/jdk- /bin:$PATH
java -version
在尚未生成公钥的环境中,选择一个主机进行配置,然后将该主机的公钥添加到其他虚拟机的 authorized_keys 文件中。
ssh spark2
在每台虚拟机上进行密钥生成并发布:
cd ~/.sshssh-keygen -t rsa
ssh spark1
将解压后的 Hadoop 软件包通过 winscp 上传到对应的路径,并解压。
sudo tar -zxvf hadoop-2.7.7.tar.gzsudo mv hadoop-2.7.7 hadoop
sudo gedit /etc/profile
在文件末尾添加:
export HADOOP_HOME=/usr/local/hadoopexport PATH=/usr/local/hadoop/bin:/usr/local/hadoop/sbin:$PATH
进行集群格式化和启动操作:
hdfs namenode -formatstart-dfs.shstart-yarn.sh
通过 JPS 检查各个进程是否正常运行。
为支持 spark sql,需要在 Hive 服务器上配置合适的元数据文件。
如使用 HortonWorks 的 Hive Setup,按照以下步骤进行:
sudo mkdir -p /usr/local/hivesudo chown -R hive /usr/local/hive
创建 metastore 目录及其数据库。
按照教程中的步骤进行数据库创建和表结构初始化。
为 Kafka 集群配置 Zookeeper,普通服务器运行:
zookeeper-server-start -Dzookeeperusterityview=true
在生产环境中,应配置分区和副本。
在 each of your machines 上配置 Kafka 运行配置文件:
根据实际应用场景选择 Kafka 的安装模式(单机模式、分布式模式等)。
默认情况下,swap 空间足够应对内存不足。
创建用户和组,并适当设置访问权限,避免文件名冲突。
定期进行系统备份,如使用 rsync 对应用程序和数据库的数据进行备份。
"""
额外的步骤和配置文件示例在文档的附录部分。
转载地址:http://neldz.baihongyu.com/