首页
蜉蝣的博客
行动起来,活在当下
累计撰写
39
篇文章
累计创建
6
个标签
累计收到
0
条评论
栏目
首页
目 录
CONTENT
Paper-蜉蝣的博客
以下是
Paper
相关的文章
Resilio: 一种大模型弹性训练容错系统
引入 大规模分布式训练大模型时,检查点的读写成为瓶颈,高频加剧训练阻塞与带宽占用,低频导致高重启代价,容错训练需要根据资源动态弹性变化 主要挑战: 准确故障感知和作业恢复 I/O性能瓶颈影响检查点写入,保存策略影响训练耗时 现有弹性训练系统缺乏复杂场景下的自动恢复机制
2025-06-23
8
0
0
Paper
ReLIEF
摘要 由于若干物联网应用对实时性有着严格要求,雾计算应运而生以克服云计算的高延时与其他局限性。由于数据包丢失的高概率性、物联网设备的能源限制以及雾基础设施可能频繁遭受的外部干扰,实时任务的时序约束可能受到破坏。因此,实时任务的执行可靠性一直是雾计算领域的重大挑战。除了任务正确执行之外,依照其实时分类
2025-06-17
5
0
0
Paper
文献阅读与写作
阅读 1. 是否值得阅读 阅读顺序 标题 + 关键词 摘要 结论 2. 阅读 阅读顺序 图表以及注释:快速了解实验设计整体思路,判断是否感兴趣 前言:仔细阅读,因为包含关键知识背景
2025-06-15
4
0
0
Paper
Survey of fault management techniques for edge-enabled distributed metaverse applications
引入 延迟显著影响元宇宙用户体验,边缘计算因地理距离近延迟低具有优势,且分布式特性相比云系统有较好的安全性 元宇宙要求高效故障管理以保障用户体验连贯一致,对边缘计算是一种挑战,因此总结了近6年(18-24)的容错研究 贡献:故障模式与影响总结、容错技术总结、容错技术针对边缘计算元宇宙的有效性、研究方
2025-06-15
10
0
0
Paper
1
2