CentOS配置Spark完整指南
前置条件
在CentOS上部署Spark前,需满足以下条件:
- 已安装Java 8或更高版本
- 系统具备sudo权限用户
- 网络连接正常,可访问软件源
安装Java环境
Spark依赖Java运行环境,执行以下命令安装OpenJDK:
sudo yum install java-1.8.0-openjdk-devel
验证Java版本:
java -version
下载与解压Spark
访问Spark官网下载最新稳定版,例如:
wget https://archive.apache.org/dist/spark/spark-3.3.2/spark-3.3.2-bin-hadoop3.tgz
tar -xvf spark-3.3.2-bin-hadoop3.tgz
sudo mv spark-3.3.2-bin-hadoop3 /opt/spark
配置环境变量
编辑/etc/profile
文件,添加以下内容:
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
使配置生效:
source /etc/profile
验证Spark安装
运行Spark-shell测试:
spark-shell
成功启动后,控制台将显示Spark版本及运行状态信息。
配置参数优化
根据服务器资源调整/opt/spark/conf/spark-defaults.conf
:
spark.master local[*]
spark.driver.memory 2g
spark.executor.memory 4g
启动Spark集群(可选)
若需启动独立集群,执行以下命令:
cd /opt/spark/sbin
./start-master.sh
./start-worker.sh spark://<Master-IP>:7077
常见问题处理
- Java版本不兼容:确保使用Java 8+并配置JAVA_HOME
- 端口冲突:检查8080和7077端口是否被占用
- 权限不足:使用sudo或修改/opt目录权限