首页
蜉蝣的博客
行动起来,活在当下
累计撰写
39
篇文章
累计创建
6
个标签
累计收到
0
条评论
栏目
首页
目 录
CONTENT
Paper-蜉蝣的博客
以下是
Paper
相关的文章
Dilu: Enabling GPU Resourcing-on-Demand for Serverless DL Serving via Introspective Elasticity
ASPLOS 25 无服务器计算(SLC) https://github.com/sigserverless/Dilu 引入 背景 SLC在DL服务中应用广泛 推理和弹性训练整合在无服务器架构中,能节约资源、部署自动、弹性扩容
2025-11-11
7
0
0
Paper
SMORE: Enhancing GPU Utilization in Deep Learning Clusters by Serverless-Based Co-Location Schedulin
TPDS 25 服务器负载(SW)+无服务器函数(SLF)共置 https://github.com/arctanln2/smore(如开) 引入 背景 DL在多领域性能优异,GPU集群广泛部署且未来会不断扩大 问题 <
2025-11-08
15
0
0
Paper
CASSINI: Network-Aware Job Scheduling in Machine Learning Clusters
NSDI 24 分布式,共享链路的通信竞争 引入 随着GPU算力规模上升,DML通信占大量训练时间,当前工作没有考虑 CASSINI降低网络拥塞,无需硬件支持/修改拥塞控制协议 通过偏移延迟迭代,交错编排计算与通信 用亲和图抽象作业通信,通过图遍历搜索偏移量
2025-10-26
23
0
0
Paper
Taming Flexible Job Packing in Deep Learning Training Clusters
TACO 25 作业打包 引入 背景 GPU集群成为DL基础设施,好的调度器提升集群效率 任务打包是提升集群利用率的关键 问题 当前打包策略过于保守 仅打包低干扰任务,否则性能严重退化 仅打包GPU需求相同的任务,否则出现Stragger拖慢整体训
2025-09-18
12
0
0
Paper
Orion: Interference-aware, Fine-grained GPU Sharing for ML Applications
EuroSys 24 算子粒度调度,HP+BE 面向固定应用 https://github.com/eth-easl/orion 引入 背景 GPU比CPU吞吐量高几个数量级,高利用率使用GPU节能且节省开销 问题
2025-09-04
26
0
0
Paper
Transparent GPU Sharing in Container Clouds for Deep Learning Workloads
NSDI 23 容器操作系统级GPU共享,性能隔离 PJ+OJ,只考虑训练 https://github.com/pkusys/TGS.git 引入 背景 容器广泛应用,方便部署和管理 DL被应用和在线服务广泛使用,企业建立大规模多租
2025-08-25
5
0
0
Paper
MLaaS in the Wild: Workload Analysis and Scheduling in Large-Scale Heterogeneous GPU Clusters
NSDI 22 生产集群ML负载、系统与调度分析、阿里PAI 引入 背景 ML性能卓越,为加速大规模ML负载处理,大规模GPU集群数据中心建立 贡献 分享PAI异构GPU生产集群工作负载分析,包含各种类型、各种配置的ML训练与推理任务 问题 先前工作集群同构且模型种类少,异构
2025-08-24
26
0
0
Paper
Lucid: A Non-intrusive, Scalable and Interpretable Scheduler for Deep Learning Training Jobs
ASPLOS 23 GPU共享,只考虑训练负载 https://github.com/S-Lab-System-Group/Lucid.git 引入 DL性能卓越,多租户DL集群很多,优秀的调度器提升利用率和计算效率 现有方案缺陷 抢占式调度,如Gand
2025-08-21
10
0
0
Paper
Design and Operation of Shared Machine Learning Clusters on Campus
2 ASPLOS 25 系统设计,运营分析 https://github.com/turingaicloud/quickstart.git 引入 学术机构中的共享GPU集群使用效率低下 高效的资源管理需要考虑管理框架、调度策略、网络协议、拓扑设计和其他系统配置,集群可用性、稳定性和性能需要提高
2025-08-20
11
0
0
Paper
Tally: Non-Intrusive Performance Isolation for Concurrent Deep Learning Workloads
ASPLOS 25 LC推理+BE训练 https://github.com/tally-project/tally.git 引入 DL的优势 DL在广泛的应用中表现卓越,为促进DL应用的研究与部署,各机构正在构建大规模GPU基础设施 DL的挑
2025-08-15
12
0
0
Paper
1
2