蜉蝣的博客

蜉蝣的博客

行动起来，活在当下

累计撰写 39 篇文章
累计创建 6 个标签
累计收到 0 条评论

目录CONTENT

最新文章

算力网 IaaS、PaaS、SaaS IaaS - 基础设施即服务核心定义： IaaS 提供最底层的云计算资源，以虚拟化的形式交付。它本质上是将数据中心的物理计算、存储和网络资源进行抽象、池化，并通过互联网按需提供给用户。用户获得的是对基础设施资源的直接控制权，而无需承担物理硬件的购置、维护成本。服务内
- 2025-12-19
- 9
- 0
- 0
- Tech
CUDA劫持原理 LD_PRELOAD LD_PRELOAD 是一个环境变量，它允许你定义一个或多个共享库（在 Linux 上是 .so 文件，在 macOS 上是 .dylib 文件）的路径，这些库会在任何
- 2025-12-19
- 3
- 0
- 0
- Tech
NVIDIA DCGM Exporter Dashboard 部署场景 K3s + Docker 前置条件安装好nvidia-container-toolkit，确保有nvidia运行时 NVIDIA DCGM 已在K3s上部署Prometheus + Grafana 传递 NVIDIA GPU —> NVIDIA Driver —> DCGM —> DCGM-
- 2025-12-19
- 4
- 0
- 0
- Tech
Grafana DCGM Exporter Dashboard 部署集群上安装dcgm-exporter Grafana中引入12239面板
- 2025-12-07
- 4
- 0
- 0
Dilu: Enabling GPU Resourcing-on-Demand for Serverless DL Serving via Introspective Elasticity ASPLOS 25 无服务器计算（SLC） https://github.com/sigserverless/Dilu 引入背景 SLC在DL服务中应用广泛推理和弹性训练整合在无服务器架构中，能节约资源、部署自动、弹性扩容
- 2025-11-11
- 7
- 0
- 0
- Paper
SMORE: Enhancing GPU Utilization in Deep Learning Clusters by Serverless-Based Co-Location Schedulin TPDS 25 服务器负载（SW）+无服务器函数（SLF）共置 https://github.com/arctanln2/smore（如开）引入背景 DL在多领域性能优异，GPU集群广泛部署且未来会不断扩大问题 <
- 2025-11-08
- 15
- 0
- 0
- Paper
CASSINI: Network-Aware Job Scheduling in Machine Learning Clusters NSDI 24 分布式，共享链路的通信竞争引入随着GPU算力规模上升，DML通信占大量训练时间，当前工作没有考虑 CASSINI降低网络拥塞，无需硬件支持/修改拥塞控制协议通过偏移延迟迭代，交错编排计算与通信用亲和图抽象作业通信，通过图遍历搜索偏移量
- 2025-10-26
- 23
- 0
- 0
- Paper
Taming Flexible Job Packing in Deep Learning Training Clusters TACO 25 作业打包引入背景 GPU集群成为DL基础设施，好的调度器提升集群效率任务打包是提升集群利用率的关键问题当前打包策略过于保守仅打包低干扰任务，否则性能严重退化仅打包GPU需求相同的任务，否则出现Stragger拖慢整体训
- 2025-09-18
- 12
- 0
- 0
- Paper
Orion: Interference-aware, Fine-grained GPU Sharing for ML Applications EuroSys 24 算子粒度调度，HP+BE 面向固定应用 https://github.com/eth-easl/orion 引入背景 GPU比CPU吞吐量高几个数量级，高利用率使用GPU节能且节省开销问题
- 2025-09-04
- 26
- 0
- 0
- Paper
K3s GPU集群部署设置docker使用gpu 安装nvidia container toolkit https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html
- 2025-08-27
- 26
- 0
- 0
- Tech

1
2
3
4