Paper-蜉蝣的博客

蜉蝣的博客

行动起来，活在当下

累计撰写 39 篇文章
累计创建 6 个标签
累计收到 0 条评论

目录CONTENT

以下是 Paper 相关的文章

Dilu: Enabling GPU Resourcing-on-Demand for Serverless DL Serving via Introspective Elasticity ASPLOS 25 无服务器计算（SLC） https://github.com/sigserverless/Dilu 引入背景 SLC在DL服务中应用广泛推理和弹性训练整合在无服务器架构中，能节约资源、部署自动、弹性扩容
- 2025-11-11
- 10
- 0
- 0
- Paper
SMORE: Enhancing GPU Utilization in Deep Learning Clusters by Serverless-Based Co-Location Schedulin TPDS 25 服务器负载（SW）+无服务器函数（SLF）共置 https://github.com/arctanln2/smore（如开）引入背景 DL在多领域性能优异，GPU集群广泛部署且未来会不断扩大问题 <
- 2025-11-08
- 16
- 0
- 0
- Paper
CASSINI: Network-Aware Job Scheduling in Machine Learning Clusters NSDI 24 分布式，共享链路的通信竞争引入随着GPU算力规模上升，DML通信占大量训练时间，当前工作没有考虑 CASSINI降低网络拥塞，无需硬件支持/修改拥塞控制协议通过偏移延迟迭代，交错编排计算与通信用亲和图抽象作业通信，通过图遍历搜索偏移量
- 2025-10-26
- 26
- 0
- 0
- Paper
Taming Flexible Job Packing in Deep Learning Training Clusters TACO 25 作业打包引入背景 GPU集群成为DL基础设施，好的调度器提升集群效率任务打包是提升集群利用率的关键问题当前打包策略过于保守仅打包低干扰任务，否则性能严重退化仅打包GPU需求相同的任务，否则出现Stragger拖慢整体训
- 2025-09-18
- 13
- 0
- 0
- Paper
Orion: Interference-aware, Fine-grained GPU Sharing for ML Applications EuroSys 24 算子粒度调度，HP+BE 面向固定应用 https://github.com/eth-easl/orion 引入背景 GPU比CPU吞吐量高几个数量级，高利用率使用GPU节能且节省开销问题
- 2025-09-04
- 29
- 0
- 0
- Paper
Transparent GPU Sharing in Container Clouds for Deep Learning Workloads NSDI 23 容器操作系统级GPU共享，性能隔离 PJ+OJ，只考虑训练 https://github.com/pkusys/TGS.git 引入背景容器广泛应用，方便部署和管理 DL被应用和在线服务广泛使用，企业建立大规模多租
- 2025-08-25
- 5
- 0
- 0
- Paper
MLaaS in the Wild: Workload Analysis and Scheduling in Large-Scale Heterogeneous GPU Clusters NSDI 22 生产集群ML负载、系统与调度分析、阿里PAI 引入背景 ML性能卓越，为加速大规模ML负载处理，大规模GPU集群数据中心建立贡献分享PAI异构GPU生产集群工作负载分析，包含各种类型、各种配置的ML训练与推理任务问题先前工作集群同构且模型种类少，异构
- 2025-08-24
- 29
- 0
- 0
- Paper
Lucid: A Non-intrusive, Scalable and Interpretable Scheduler for Deep Learning Training Jobs ASPLOS 23 GPU共享，只考虑训练负载 https://github.com/S-Lab-System-Group/Lucid.git 引入 DL性能卓越，多租户DL集群很多，优秀的调度器提升利用率和计算效率现有方案缺陷抢占式调度，如Gand
- 2025-08-21
- 10
- 0
- 0
- Paper
Design and Operation of Shared Machine Learning Clusters on Campus 2 ASPLOS 25 系统设计，运营分析 https://github.com/turingaicloud/quickstart.git 引入学术机构中的共享GPU集群使用效率低下高效的资源管理需要考虑管理框架、调度策略、网络协议、拓扑设计和其他系统配置，集群可用性、稳定性和性能需要提高
- 2025-08-20
- 11
- 0
- 0
- Paper
Tally: Non-Intrusive Performance Isolation for Concurrent Deep Learning Workloads ASPLOS 25 LC推理+BE训练 https://github.com/tally-project/tally.git 引入 DL的优势 DL在广泛的应用中表现卓越，为促进DL应用的研究与部署，各机构正在构建大规模GPU基础设施 DL的挑
- 2025-08-15
- 12
- 0
- 0
- Paper

1
2