首页
蜉蝣的博客
行动起来,活在当下
累计撰写
39
篇文章
累计创建
6
个标签
累计收到
0
条评论
栏目
首页
目 录
CONTENT
蜉蝣的博客
最新文章
算力网
IaaS、PaaS、SaaS IaaS - 基础设施即服务 核心定义: IaaS 提供最底层的云计算资源,以虚拟化的形式交付。它本质上是将数据中心的物理计算、存储和网络资源进行抽象、池化,并通过互联网按需提供给用户。用户获得的是对基础设施资源的直接控制权,而无需承担物理硬件的购置、维护成本。 服务内
2025-12-19
9
0
0
Tech
CUDA劫持
原理 LD_PRELOAD LD_PRELOAD 是一个环境变量,它允许你定义一个或多个共享库(在 Linux 上是 .so 文件,在 macOS 上是 .dylib 文件)的路径,这些库会在任何
2025-12-19
3
0
0
Tech
NVIDIA DCGM Exporter Dashboard 部署
场景 K3s + Docker 前置条件 安装好nvidia-container-toolkit,确保有nvidia运行时 NVIDIA DCGM 已在K3s上部署Prometheus + Grafana 传递 NVIDIA GPU —> NVIDIA Driver —> DCGM —> DCGM-
2025-12-19
4
0
0
Tech
Grafana DCGM Exporter Dashboard 部署
集群上安装dcgm-exporter Grafana中引入12239面板
2025-12-07
4
0
0
Dilu: Enabling GPU Resourcing-on-Demand for Serverless DL Serving via Introspective Elasticity
ASPLOS 25 无服务器计算(SLC) https://github.com/sigserverless/Dilu 引入 背景 SLC在DL服务中应用广泛 推理和弹性训练整合在无服务器架构中,能节约资源、部署自动、弹性扩容
2025-11-11
7
0
0
Paper
SMORE: Enhancing GPU Utilization in Deep Learning Clusters by Serverless-Based Co-Location Schedulin
TPDS 25 服务器负载(SW)+无服务器函数(SLF)共置 https://github.com/arctanln2/smore(如开) 引入 背景 DL在多领域性能优异,GPU集群广泛部署且未来会不断扩大 问题 <
2025-11-08
15
0
0
Paper
CASSINI: Network-Aware Job Scheduling in Machine Learning Clusters
NSDI 24 分布式,共享链路的通信竞争 引入 随着GPU算力规模上升,DML通信占大量训练时间,当前工作没有考虑 CASSINI降低网络拥塞,无需硬件支持/修改拥塞控制协议 通过偏移延迟迭代,交错编排计算与通信 用亲和图抽象作业通信,通过图遍历搜索偏移量
2025-10-26
23
0
0
Paper
Taming Flexible Job Packing in Deep Learning Training Clusters
TACO 25 作业打包 引入 背景 GPU集群成为DL基础设施,好的调度器提升集群效率 任务打包是提升集群利用率的关键 问题 当前打包策略过于保守 仅打包低干扰任务,否则性能严重退化 仅打包GPU需求相同的任务,否则出现Stragger拖慢整体训
2025-09-18
12
0
0
Paper
Orion: Interference-aware, Fine-grained GPU Sharing for ML Applications
EuroSys 24 算子粒度调度,HP+BE 面向固定应用 https://github.com/eth-easl/orion 引入 背景 GPU比CPU吞吐量高几个数量级,高利用率使用GPU节能且节省开销 问题
2025-09-04
26
0
0
Paper
K3s GPU集群部署
设置docker使用gpu 安装nvidia container toolkit https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html
2025-08-27
26
0
0
Tech
1
2
3
4