A100 部署 Grok2.5

下载模型

1
2
export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download --resume-download xai-org/grok-2 --local-dir /data/grok2

下载模型可能会失败很多次,需要在失败后继续运行下载命令

官方说明需要8个 40GB+ 的 GPU 才能运行

拉取 sglang

1
docker pull lmsysorg/sglang:latest

拉取不下来,可以使用加速地址

运行

官方推荐命令为

1
python3 -m sglang.launch_server --model /local/grok-2 --tokenizer-path /local/grok-2/tokenizer.tok.json --tp 8 --quantization fp8 --attention-backend triton

使用 docker 后,命令为:(A100 不能进行 fp8 量化,所以去除)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
docker run --gpus all --shm-size=2g -d \
-v /data/grok2:/data/grok2 \
-p 30000:30000 \
--name sglang-grok \
--restart unless-stopped \
-e NCCL_DEBUG=INFO \
cf-workers-docker-io-3hw.pages.dev/lmsysorg/sglang:latest \
python3 -m sglang.launch_server \
--model-path /data/grok2/ \
--tokenizer-path /data/grok2/tokenizer.tok.json \
--tp-size 8 \
--attention-backend triton \
--host 0.0.0.0 \
--port 30000 \
--mem-fraction-static 0.8 \
--context-length 32768

17574019282001757401927900.png

17574019892011757401988684.png