首页
蜉蝣的博客
行动起来,活在当下
累计撰写
39
篇文章
累计创建
6
个标签
累计收到
0
条评论
栏目
首页
目 录
CONTENT
蜉蝣的博客
最新文章
Transparent GPU Sharing in Container Clouds for Deep Learning Workloads
NSDI 23 容器操作系统级GPU共享,性能隔离 PJ+OJ,只考虑训练 https://github.com/pkusys/TGS.git 引入 背景 容器广泛应用,方便部署和管理 DL被应用和在线服务广泛使用,企业建立大规模多租
2025-08-25
5
0
0
Paper
MLaaS in the Wild: Workload Analysis and Scheduling in Large-Scale Heterogeneous GPU Clusters
NSDI 22 生产集群ML负载、系统与调度分析、阿里PAI 引入 背景 ML性能卓越,为加速大规模ML负载处理,大规模GPU集群数据中心建立 贡献 分享PAI异构GPU生产集群工作负载分析,包含各种类型、各种配置的ML训练与推理任务 问题 先前工作集群同构且模型种类少,异构
2025-08-24
26
0
0
Paper
Lucid: A Non-intrusive, Scalable and Interpretable Scheduler for Deep Learning Training Jobs
ASPLOS 23 GPU共享,只考虑训练负载 https://github.com/S-Lab-System-Group/Lucid.git 引入 DL性能卓越,多租户DL集群很多,优秀的调度器提升利用率和计算效率 现有方案缺陷 抢占式调度,如Gand
2025-08-21
10
0
0
Paper
Design and Operation of Shared Machine Learning Clusters on Campus
2 ASPLOS 25 系统设计,运营分析 https://github.com/turingaicloud/quickstart.git 引入 学术机构中的共享GPU集群使用效率低下 高效的资源管理需要考虑管理框架、调度策略、网络协议、拓扑设计和其他系统配置,集群可用性、稳定性和性能需要提高
2025-08-20
11
0
0
Paper
Tally: Non-Intrusive Performance Isolation for Concurrent Deep Learning Workloads
ASPLOS 25 LC推理+BE训练 https://github.com/tally-project/tally.git 引入 DL的优势 DL在广泛的应用中表现卓越,为促进DL应用的研究与部署,各机构正在构建大规模GPU基础设施 DL的挑
2025-08-15
12
0
0
Paper
Volcano调度器demo
作业优先级与抢占 前置条件 部署volcano 修改configmap kubectl edit cm -n volcano-system volcano-scheduler-configmap apiVersion: v1 data: volcano-scheduler.conf: |
2025-08-13
62
0
0
Tech
Go语言安装
使用VSCode安装并配置 官网下载压缩包 https://golang.google.cn/dl/ 执行 rm -rf /usr/local/go && tar -C /usr/local -xzf go1.24.6.linux-amd64.tar.gz <
2025-08-07
7
0
0
Tech
Volcano调度器部署
安装 文档 https://volcano.sh/zh/docs/v1-12-0/installation/ 基于yaml文件部署 kubectl apply -f https://raw.githubusercontent.com/volcano-sh/volcano/master/install
2025-08-07
35
0
0
Tech
K3s配置Kubernetes Dashboard
部署Dashboard 安装k8s包管理工具Helm curl https://raw.githubusercontent.com/helm/helm/main/scripts/get-helm-3 | bash 向Helm添加Dashboard仓库 helm repo add kubernetes
2025-07-30
6
0
0
Tech
DLRover部署
配置docker私有仓库 创建仓库 docker run -d -p 5123:5000 -v $(pwd):/var/lib/registry --name dlrover_registry registry:3 推送镜像 docker pull <image> $ docker tag <ima
2025-07-03
6
0
0
Tech
1
2
3
4