Eurosys 25 Skyserve

来自大名鼎鼎的UCB Sky Computing Lab 他们尝试在云里运行LLM Serve 然后他们考虑的场景是 Spot inference。这个场景类似于云的instance很吃紧,然后会经常的扩增和缩小。在这种动态场景下做一个能fault tolerance, load balance的一个推理引擎调度系统。 AI也是微服务 Sky serve 首先把LLM服务当成微服务看待。在这种情况

SC 24 Brief Summary 4

总链接: https://haibin-blog.vercel.app/index.php/sc-2024-passage/ Parallel Program Analysis and Code Optimization MCFuser: High-performance and Rapid-fusion of Memory-bound Compute-intensive Operators Aut

读书:分布式计算、云计算与大数据

图书馆里尻来的老书,总的来说,给小朋友介绍挺不错的。但是可惜太学院派,缺少真实实战。 云计算的基础 定义/概念: 并行计算、网络计算、对等计算、集群计算、网格计算、云计算、边缘计算、移动边缘计算、大数据 分布式计算依赖于多个计算节点共同协作来处理任务。其不同于C/S架构,还要多节点要协同通信。 主要应用: GIMPS梅森素数 SETI@Home Amazon / 互联网 主要挑战: 多点故障 安全