(著者: Chen Yujue)
プロジェクトのアドレス:
https://github.com/tencentmusic/cube-studio
または
https://gitee.com/data-infra/cube-studio/blob/master/install/README.mdを参照
機械学習プラットフォームをデプロイしたいのですが、プラットフォームにはまだマシンに対する特定の要件があるため、Tencent Cloud からサーバーを購入しました。デプロイメント プロセス中のマシンのパフォーマンスの問題によるデプロイメントの失敗を避けるため、構成情報は次のとおりです。
購入が完了したら、サーバーに直接ログインします。
機械学習プラットフォームのホームページを開くのは Jiangzi です。ネットワークが比較的良好な場合は、https://github.com/tencentmusic/cube-studio にアクセスします。ネットワークの状態があまり良くない場合は、https://gitee.com /data-infra/cube-studio に移動し、プラットフォームがデプロイされている位置までスライドして、プラットフォームを直接デプロイする方法を確認してください。導入プロセスと必要な環境は、install/readme.md にあります。
基础环境依赖
docker >= 19.03
kubernetes = 1.18
kubectl >=1.18
cfs/ceph 挂载到每台机器的 /data/k8s/
单机 磁盘>=500G 单机磁盘容量要求不大,仅做镜像容器的的存储
控制端机器 cpu>=16 mem>=32G
任务端机器,根据需要自行配置
新しいサーバーでは、最初に docker と k8s をインストールする必要がありますが、rancher は k8s クラスターを管理できるため、rancher を直接インストールします。
1.ドッカーをインストールする
#设置docker存储库
sudo apt-get update
sudo apt-get install \
ca-certificates \
curl \
gnupg \
lsb-release
#添加官方秘钥
sudo mkdir -p /etc/apt/keyrings
curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpg
#稳定存储库
echo \
"deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.gpg] https://download.docker.com/linux/ubuntu \
$(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
#安装docker
sudo apt-get update
#查看存储库中的可用版本,因为我们需要19.03以上的docker
apt-cache madison docker-ce
必要なバージョンの Docker のインストールを選択します
sudo apt-get install docker-ce=5:19.03.15~3-0~ubuntu-focal docker-ce-cli=5:19.03.15~3-0~ubuntu-focal containerd.io docker-compose-plugin
時々このエラーが発生します
Err:5 https://download.docker.com/linux/ubuntu focal/stable amd64 docker-ce-cli amd64 5:19.03.15~3-0~ubuntu-focal
Could not wait for server fd - select (11: Resource temporarily unavailable) [IP: 13.249.171.37 443]
ネットワークの問題です。もう一度実行してください。
次に、
インストールが成功したことを確認するためにテストします。
2、Rancherをインストールする
sudo docker run -d --privileged --restart=unless-stopped -p 443:443 rancher/rancher:v2.5.2
インストールが完了したら、パブリック ネットワークの ip+443 ポートを使用して rancher ページを開きます。
パスワードを設定し、匿名統計の収集を許可を削除し、Rancher を使用するための利用規約に同意しますにチェックを入れます。
3. k8s クラスターを構成する
Rancher に入った後、cluter を追加すると、右下隅で言語を中国語に切り替えることができます。
[カスタム] を選択して
yaml ファイルを変更し、kube_api 部分を次のものに置き換えて、次の kubelet 部分を追加します。スペースの位置合わせに注意してください。
kube_api:
always_pull_images: false
pod_security_policy: false
service_node_port_range: 10-32767
extra_args:
service-account-issuer: kubernetes.default.svc
service-account-signing-key-file: /etc/kubernetes/ssl/kube-service-account-token-key.pem
kubelet:
extra_binds:
- '/data:/data'
ホストオプションで上記3つの役割にチェックを入れ、以下のコマンドをコピーしてサーバー上で実行し、「完了」をクリックします。
これは、クラスターとマシンの準備が完了したことを意味します。
4. cube-studio をインストールします
。次に cube-studio をダウンロードします。master ブランチをダウンロードしました。
git clone https://gitee.com/data-infra/cube-studio.git
クリックしてクラスターに入り、
kubeconfig ファイルを開き
、左下の「クリップボードにコピー」をクリックし、サーバーの /cube-studio/install/kubernetes ディレクトリに切り替え、新しい構成ファイルを追加し、コピーした内容を構成ファイルに追加します。 、次のオーダーを実行します。
sudo sh start.sh 172.16.0.13
ここでの IP をイントラネット IP に忘れずに変更してください。この IP は、ホスト上で ifconfig を実行するときに表示される IP に設定する必要があります。!!そうしないとバグが発生します。!!
実行後、外部ネットワーク IP を開きます。たとえば、私のネットワーク IP は 159.75.206.154 で、http://159.75.206.154 を開いて、名前空間を移動する必要があります。http:
//外部ネットワーク IP を開くことができれば、成功です。 Rancher で、どのコンポーネントがインストールに失敗したかを確認します。イメージのプルが失敗するのは、ネットワークの問題が原因である場合があります。再度プルすることもできます (github が実行されているときは機能しません)。または、手動でプルする必要があります。オープンソース プロジェクトにバグを送信します。
導入が成功した後のインターフェース:
参考リンク:
https://docs.docker.com/engine/install/ubuntu/
https://gitee.com/data-infra/cube-studio/tree/master
http://docs.rancher.cn/docs/ rancher2.5/クイックスタートガイド/デプロイメント/クイックスタートマニュアルセットアップ/_index