DataSphereStudio 安装部署文档 data-integration怎么安装

wptr33 2024-12-20 19:03 33 浏览

DSS部署在 bigdata4 节点上。

1.1 下载安装包

地址：https://osp-1257653870.cos.ap-guangzhou.myqcloud.com/WeDatasphere/DataSphereStudio/1.1.1/dss_linkis_one-click_install_20221201.zip
版本：1.1.1

1.2 部署前注意事项（重要）

确保安装的系统为CentOS为6或者7
服务器存在多网卡问题。首先通过命令ifconfig命令查看服务器激活状态的网卡，若激活状态的网卡数大于1，那么用户就需要通过命令ifconfig [NIC_NAME] down([NIC_NAME]为网卡名称)来关闭多余的网卡，以确保激活的网卡数只有1个
网卡多IP问题。在确保服务器只存在一个网卡是激活状态的情况下，通过命令echo $(hostname -I)查看网卡对应的IP数，若大于1，那么就需要去掉网卡中指定的IP，采用动态获取IP的方式，具体命令如下：ip addr flush dev [NIC_NAME]
ifdown [NIC_NAME]
ifup [NIC_NAME]
hostname配置。在安装前用户需要配置hostname到ip的映射

1.3 基础软件安装

1.3.1 概述

需要的命令工具（在正式安装前，脚本会自动检测这些命令是否可用，如果不存在会尝试自动安装，安装失败则需用户手动安装以下基础shell命令工具）：
telnet; tar; sed; dos2unix; mysql; yum; java; unzip; zip; expect
需要安装的软件：
MySQL (5.5+); JDK (1.8.0_141以上); Python(2.x和3.x都支持); Nginx
下面的服务必须可从本机访问：
Hadoop(2.7.2，Hadoop其他版本需自行编译Linkis) ，安装的机器必须支持执行 hdfs dfs -ls / 命令
Hive(2.3.3，Hive其他版本需自行编译Linkis)，安装的机器必须支持执行hive -e “show databases”命令
Spark(支持2.0以上所有版本) ，安装的机器必须支持执行spark-sql -e “show databases” 命令
Tips:
如用户是第一次安装Hadoop，单机部署Hadoop可参考：Hadoop单机部署；分布式部署Hadoop可参考：Hadoop分布式部署
如用户是第一次安装Hive，可参考：Hive快速安装部署
如用户是第一次安装Spark，On Yarn模式可参考：Spark on Yarn部署

1.3.2 基础软件安装

1.3.2.1 Linux命令安装

yum install -y telnet-server.x86_64
yum install -y telnet.x86_64
yum -y install sed
yum install -y dos2unix
yum -y install expect

1.3.2.2 如果用户的Pyspark想拥有画图功能，则还需在所有安装节点，安装画图模块

python -m pip install matplotlib

1.3.2.3 MySQL安装

①. 在 bigdata4 节点上，安装MySQL8.0.31
下载地址：https://dev.mysql.com/get/Downloads/MySQL-8.0/mysql-8.0.31-linux-glibc2.12-x86_64.tar.xz

②. 上传并解压解压mysql-8.0.31-linux-glibc2.12-x86_64.tar.xz

#1.上传jar包：
cd /opt
sudo rz  Ctrl + 点击鼠标右键上传jar包

#2.解压：
sudo tar -xvf mysql-8.0.31-linux-glibc2.12-x86_64.tar.xz

#3.删掉安装包：
sudo rm -rf mysql-8.0.31-linux-glibc2.12-x86_64.tar.xz

#4.更改名称
sudo mv mysql-8.0.31-linux-glibc2.12-x86_64 mysql-8.0.31

#5.更改用户组
sudo chown -R admin:admin mysql-8.0.31/

③. 填写配置文件
在MySQL根目录下创建配置文件 my.cnf

vim /opt/mysql-8.0.31/my.cnf

配置文件如下：

[mysqld]
# 设置3306端口
port=3306
# 设置mysql的安装目录
basedir=/opt/mysql-8.0.31
# 设置mysql数据库的数据的存放目录
datadir=/opt/mysql-8.0.31/data
# 允许最大连接数
max_connections=2000
# 允许连接失败的次数。这是为了防止有人从该主机试图攻击数据库系统
max_connect_errors=10
# 服务端使用的字符集默认为UTF8
character-set-server=utf8
# 创建新表时将使用的默认存储引擎
default-storage-engine=INNODB
#sql_mode中去掉了ONLY_FULL_GROUP_BY
sql_mode=STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_ENGINE_SUBSTITUTION
[mysql]
# 设置mysql客户端默认字符集
default-character-set=utf8
[client]
# 设置mysql客户端连接服务端时默认使用的端口
port=3306
default-character-set=utf8

在MySQL根目录下创建数据文件夹：

cd /opt/mysql-8.0.31
mkdir data

④. MySQL初始化

cd /opt/mysql-8.0.31/bin
./mysqld --defaults-file=/opt/mysql-8.0.31/my.cnf  --initialize-insecure

⑤. 启动MySQL

/opt/mysql-8.0.31/bin/mysqld_safe --defaults-file=/opt/mysql-8.0.31/my.cnf &

⑥. 查看是否启动

ps -ef|grep mysql

⑦. 配置环境变量

打开 /etc/profile.d 目录下的 my_env.sh 文件sudo vim /etc/profile.d/my_env.sh
添加如下内容，然后保存（:wq）退出#MYSQL_HOME
export MYSQL_HOME=/opt/mysql-8.0.31
export PATH=$PATH:$MYSQL_HOME/bin
让环境变量生效source /etc/profile.d/my_env.sh

⑧. 登录数据库

mysql -u root -p

⑨. 修改密码

flush privileges;
ALTER USER 'root'@'localhost'IDENTIFIED BY 'root' PASSWORD EXPIRE NEVER;
ALTER USER 'root'@'localhost'IDENTIFIED wITH mysql_native_password BY 'Xl123456';
flush privileges;

1.3.2.4 Nginx安装

①. 在 bigdata4 节点上，安装nginx-1.22.1
下载地址：https://nginx.org/download/nginx-1.22.1.tar.gz

②. 上传并解压解压 nginx-1.22.1.tar.gz

#1.上传jar包：
cd /opt
sudo rz  Ctrl + 点击鼠标右键上传jar包

#2.解压：
sudo tar -xvf nginx-1.22.1.tar.gz

#3.删掉安装包：
sudo rm -rf nginx-1.22.1.tar.gz

#4.更改用户组
sudo chown -R admin:admin nginx-1.22.1/

③. 安装nginx

# 创建 /usr/local/nginx 文件夹
cd /usr/local
sudo mkdir nginx
sudo chown -R admin:admin nginx/


cd /opt/nginx-1.22.1/

./configure --with-http_ssl_module --with-ipv6 --with-stream

./configure --prefix=/usr/local/nginx --with-http_stub_status_module --with-http_ssl_module --with-http_flv_module --with-http_stub_status_module --with-stream --with-http_gzip_static_module

make && make install

④. 启动nginx

cd /usr/local/nginx/sbin/

sudo ./nginx

1.4 修改配置

#1.上传jar包：
cd /opt
sudo rz  Ctrl + 点击鼠标右键上传jar包

#2.解压：
sudo unzip dss_linkis_one-click_install_20221201.zip

#3.删掉安装包：
sudo rm -rf dss_linkis_one-click_install_20221201.zip

#4.更改名称
sudo mv dss_linkis_one-click_install_20221201/ dss_linkis

#5.更改用户组
sudo chown -R admin:admin dss_linkis/

用户需要对 /opt/dss_linkis/conf 目录下的 config.sh 和 db.sh 进行修改。
修改config.sh

vim /opt/dss_linkis/conf/config.sh

修改文件内容如下：

### deploy user
deployUser=admin

### Linkis_VERSION
LINKIS_VERSION=1.1.1

### DSS Web
DSS_NGINX_IP=127.0.0.1
DSS_WEB_PORT=8085

### DSS VERSION
DSS_VERSION=1.1.1


############## ############## linkis的其他默认配置信息 start ############## ##############
### Specifies the user workspace, which is used to store the user's script files and log files.
### Generally local directory
##file:// required
WORKSPACE_USER_ROOT_PATH=/home/admin/linkis
### User's root hdfs path
##hdfs:// required
HDFS_USER_ROOT_PATH=hdfs:///tmp/linkis 
### Path to store job ResultSet:file or hdfs path
##hdfs:// required
RESULT_SET_ROOT_PATH=hdfs:///tmp/linkis 

### Path to store started engines and engine logs, must be local
ENGINECONN_ROOT_PATH=/home/admin/linkis/tmp

#ENTRANCE_CONFIG_LOG_PATH=hdfs:///tmp/linkis/ ##hdfs:// required

###HADOOP CONF DIR #/appcom/config/hadoop-config
HADOOP_CONF_DIR=/opt/hadoop-3.1.3/etc/hadoop
###HIVE CONF DIR  #/appcom/config/hive-config
HIVE_CONF_DIR=/opt/hive/conf
###SPARK CONF DIR #/appcom/config/spark-config
SPARK_CONF_DIR=/opt/hive/conf
# for install
LINKIS_PUBLIC_MODULE=lib/linkis-commons/public-module


##YARN REST URL  spark engine required
YARN_RESTFUL_URL=http://172.16.3.45:8088/

## Engine version conf
#SPARK_VERSION
SPARK_VERSION=3.0.0
##HIVE_VERSION
HIVE_VERSION=3.1.2
PYTHON_VERSION=python2

## LDAP is for enterprise authorization, if you just want to have a try, ignore it.
#LDAP_URL=ldap://localhost:1389/
#LDAP_BASEDN=dc=webank,dc=com
#LDAP_USER_NAME_FORMAT=cn=%s@xxx.com,OU=xxx,DC=xxx,DC=com

################### The install Configuration of all Linkis's Micro-Services #####################
#
#    NOTICE:
#       1. If you just wanna try, the following micro-service configuration can be set without any settings.
#            These services will be installed by default on this machine.
#       2. In order to get the most complete enterprise-level features, we strongly recommend that you install
#          the following microservice parameters
#

###  EUREKA install information
###  You can access it in your browser at the address below:http://${EUREKA_INSTALL_IP}:${EUREKA_PORT}
###  Microservices Service Registration Discovery Center
LINKIS_EUREKA_INSTALL_IP=127.0.0.1
LINKIS_EUREKA_PORT=9600
#LINKIS_EUREKA_PREFER_IP=true

###  Gateway install information
#LINKIS_GATEWAY_INSTALL_IP=127.0.0.1
LINKIS_GATEWAY_PORT=9001

### ApplicationManager
#LINKIS_MANAGER_INSTALL_IP=127.0.0.1
LINKIS_MANAGER_PORT=9101

### EngineManager
#LINKIS_ENGINECONNMANAGER_INSTALL_IP=127.0.0.1
LINKIS_ENGINECONNMANAGER_PORT=9102

### EnginePluginServer
#LINKIS_ENGINECONN_PLUGIN_SERVER_INSTALL_IP=127.0.0.1
LINKIS_ENGINECONN_PLUGIN_SERVER_PORT=9103

### LinkisEntrance
#LINKIS_ENTRANCE_INSTALL_IP=127.0.0.1
LINKIS_ENTRANCE_PORT=9104

###  publicservice
#LINKIS_PUBLICSERVICE_INSTALL_IP=127.0.0.1
LINKIS_PUBLICSERVICE_PORT=9105

### cs
#LINKIS_CS_INSTALL_IP=127.0.0.1
LINKIS_CS_PORT=9108

########## Linkis微服务配置完毕##### 

################### The install Configuration of all DataSphereStudio's Micro-Services #####################
#
#    NOTICE:
#       1. If you just wanna try, the following micro-service configuration can be set without any settings.
#            These services will be installed by default on this machine.
#       2. In order to get the most complete enterprise-level features, we strongly recommend that you install
#          the following microservice parameters
#

### DSS_SERVER
### This service is used to provide dss-server capability.

### project-server
#DSS_FRAMEWORK_PROJECT_SERVER_INSTALL_IP=127.0.0.1
#DSS_FRAMEWORK_PROJECT_SERVER_PORT=9002
### orchestrator-server
#DSS_FRAMEWORK_ORCHESTRATOR_SERVER_INSTALL_IP=127.0.0.1
#DSS_FRAMEWORK_ORCHESTRATOR_SERVER_PORT=9003
### apiservice-server
#DSS_APISERVICE_SERVER_INSTALL_IP=127.0.0.1
#DSS_APISERVICE_SERVER_PORT=9004
### dss-workflow-server
#DSS_WORKFLOW_SERVER_INSTALL_IP=127.0.0.1
#DSS_WORKFLOW_SERVER_PORT=9005
### dss-flow-execution-server
#DSS_FLOW_EXECUTION_SERVER_INSTALL_IP=127.0.0.1
#DSS_FLOW_EXECUTION_SERVER_PORT=9006
###dss-scriptis-server
#DSS_SCRIPTIS_SERVER_INSTALL_IP=127.0.0.1
#DSS_SCRIPTIS_SERVER_PORT=9008

###dss-data-api-server
#DSS_DATA_API_SERVER_INSTALL_IP=127.0.0.1
#DSS_DATA_API_SERVER_PORT=9208
###dss-data-governance-server
#DSS_DATA_GOVERNANCE_SERVER_INSTALL_IP=127.0.0.1
#DSS_DATA_GOVERNANCE_SERVER_PORT=9209
###dss-guide-server
#DSS_GUIDE_SERVER_INSTALL_IP=127.0.0.1
#DSS_GUIDE_SERVER_PORT=9210
########## DSS微服务配置完毕#####

############## ############## other default configuration 其他默认配置信息  ############## ##############

## java application default jvm memory
export SERVER_HEAP_SIZE="512M"


##sendemail配置，只影响DSS工作流中发邮件功能
EMAIL_HOST=smtp.163.com
EMAIL_PORT=25
EMAIL_USERNAME=mixiangchong@xianglin.cn
EMAIL_PASSWORD=Xl123456
EMAIL_PROTOCOL=smtp

### Save the file path exported by the orchestrator service
ORCHESTRATOR_FILE_PATH=/home/admin/dss
### Save DSS flow execution service log path
EXECUTION_LOG_PATH=/home/admin/dss

修改db.sh

### for DSS-Server and Eventchecker APPCONN
MYSQL_HOST=172.16.3.26
MYSQL_PORT=3306
MYSQL_DB=dss
MYSQL_USER=root
MYSQL_PASSWORD=Xl123456

#主要是配合scriptis一起使用，如果不配置，会默认尝试通过$HIVE_CONF_DIR 中的配置文件获取
# HiveMeta元数据库的URL
HIVE_META_URL=jdbc:mysql://172.16.3.26:3306/metastore?useSSL=false&useUnicode=true&characterEncoding=UTF-8
# HiveMeta元数据库的用户
HIVE_META_USER=root
 # HiveMeta元数据库的密码
HIVE_META_PASSWORD=Xl123456

1.5 安装和使用

1.5.1 停止机器上所有DSS及Linkis服务

若从未安装过DSS及Linkis服务，忽略此步骤

cd /opt/dss_linkis/bin

1.5.3 执行安装脚本

sh install.sh

该安装脚本会检查各项集成环境命令，如果没有请按照提示进行安装，以下命令为必须项：
yum; java; mysql; unzip; expect; telnet; tar; sed; dos2unix; nginx
安装时，脚本会询问您是否需要初始化数据库并导入元数据，Linkis 和 DSS 均会询问，第一次安装必须选是
通过查看控制台打印的日志信息查看是否安装成功，如果有错误信息，可以查看具体报错原因
除非用户想重新安装整个应用，否则该命令执行一次即可

1.5.4 启动服务

若用户的Linkis安装包是通过自己编译获取且用户想启用数据源管理功能，那么就需要去修改配置以启动该项功能，使用下载的安装包无需操作

# 切换到Linkis配置文件目录
cd /opt/dss_linkis/linkis/conf

# 打开配置文件linkis-env.sh
vim linkis-env.sh

# 将如下配置改为true
export ENABLE_METADATA_MANAGER=true

若用户的Linkis安装包是通过自己编译获取，在启动服务前尽量将后续用到的密码改成和部署用户名一致，使用下载的安装包无需操作

## 切换到Linkis配置文件目录
cd /opt/dss_linkis/linkis/conf/

## 打开配置文件linkis-mg-gateway.properties
vim linkis-mg-gateway.properties

## 修改密码
wds.linkis.admin.password=hadoop

在xx/dss_linkis/bin目录下执行启动服务脚本

sh /opt/dss_linkis/bin/start-all.sh

如果启动产生了错误信息，可以查看具体报错原因。启动后，各项微服务都会进行通信检测，如果有异常则可以帮助用户定位异常日志和原因

1.5.5 安装默认Appconn

# 切换目录到dss，正常情况下dss目录就在xx/dss_linkis目录下，
cd /opt/dss_linkis/dss/bin

# 执行启动默认Appconn脚本
sh install-default-appconn.sh

该命令执行一次即可，除非用户想重新安装整个应用

1.5.6 查看验证是否成功

用户可以在Eureka界面查看 Linkis & DSS 后台各微服务的启动情况，默认情况下DSS有7个微服务，Linkis有10个微服务(包括启用数据源管理功能后的两个微服务) （Eureka地址在xx/dss_linkis/conf/config.sh有配置）
用户可以使用谷歌浏览器访问以下前端地址：http://DSS_NGINX_IP:DSS_WEB_PORT 启动日志会打印此访问地址（在xx/dss_linkis/conf/config.sh中也配置了此地址）。登陆时默认管理员的用户名和密码均为部署用户为hadoop（用户若想修改密码，可以通过修改 /opt/dss_linkis/linkis/conf/linkis-mg-gateway.properties 文件中的 wds.linkis.admin.password 参数)

1.5.7 停止服务

sh /opt/dss_linkis/bin/stop-all.sh

若用户需要停止所有服务可执行该命令sh stop-all.sh，重新启动所有服务就执行sh start-all.sh，这两条命令均在xx/dss_linkis/bin目录下执行

1.6 补充说明

考虑到安装包过于大的问题，Linkis默认仅提供Hive, Python, Shell, Spark引擎插件，用户若想使用其他引擎，可参考文档: Linkis引擎的安装
DSS默认未安装调度系统，用户可以选择安装 Schedulis 或者 DolphinScheduler，具体安装方式见下面表格
DSS默认仅安装DateChecker, EventSender, EventReceiver AppConn，用户可参考文档安装其他AppConn，如Visualis, Exchangis, Qualitis, Prophecis, Streamis。调度系统可使用Schedulis或DolphinScheduler

1.7 web端访问地址：

地址：http://172.16.3.44:8085/#/login
账号：admin
密码：hadoop

1.8 官网文档地址

https://github.com/WeBankFinTech/DataSphereStudio-Doc/blob/main/zh_CN/%E5%AE%89%E8%A3%85%E9%83%A8%E7%BD%B2/DSS%26Linkis%E4%B8%80%E9%94%AE%E9%83%A8%E7%BD%B2%E6%96%87%E6%A1%A3%E5%8D%95%E6%9C%BA%E7%89%88.md#1

欢迎进入开发者交流群，以下学习资料有助于你了解WDS：

（1）沙箱环境使用指南：https://mp.weixin.qq.com/s/Wo_AzboxyhTSk5A69TvaBA
（2）WeDataSphere视频介绍：https://www.bilibili.com/video/BV1De4y1Z7ZZ
（3）使用DSS实现可视化BI：https://www.bilibili.com/video/BV1xY4y1t7Ma
（4）技术文章集锦：https://mp.weixin.qq.com/s/OLw9VLz80otLMP3BD1m7JA

如果你们有培训、安装部署、运维支持等商业合作的需求，欢迎联系小助手进行详细沟通

1.9 常见问题：

1.9.1 启动服务报错

spark安装

上一篇：介绍一款免费的3D建模软件-DesignSpark Mechanical
下一篇：Arduino IDE 中安装 Digispark 开发板出错

DataSphereStudio 安装部署文档 data-integration怎么安装

1.1 下载安装包

1.2 部署前注意事项（重要）

1.3 基础软件安装

1.3.1 概述

1.3.2 基础软件安装

1.3.2.1 Linux命令安装

1.3.2.2 如果用户的Pyspark想拥有画图功能，则还需在所有安装节点，安装画图模块

1.3.2.3 MySQL安装

1.3.2.4 Nginx安装

1.4 修改配置

1.5 安装和使用

1.5.1 停止机器上所有DSS及Linkis服务

1.5.2 将当前目录切换到bin目录

1.5.3 执行安装脚本

1.5.4 启动服务

1.5.5 安装默认Appconn

1.5.6 查看验证是否成功

1.5.7 停止服务

1.6 补充说明

1.7 web端访问地址：

1.8 官网文档地址

1.9 常见问题：

1.9.1 启动服务报错

相关推荐

Python第六讲:tuple_python tuple类型

SparkSQL——DataFrame的创建与使用

如何将AI助手接入微信（打开ai手机助手）

使用过 Redis 分布式锁么，它是什么回事?

HIVE SQL基础语法（hive-sql）

Python rembg 库去除图片背景

VUE循环语句的使用(v-for)（vuefor循环的key）

HiveOs系统教程最细手把手教学（hiveos启动）

《循环(for/while)》（循环while语句）

Spring Boot 概述（spring boot干嘛的）