课题方向
面向AI推理服务的系统性能优化
模型再强,也需要高效的计算系统来承载。当千万用户同时发起推理请求,背后的系统如何秒级响应、控制成本、合理调度资源?这是本课题组的核心研究问题。
01
AI模型冷启动优化
AI推理服务从零启动时,模型加载、运行时初始化、依赖准备各阶段存在显著延迟。通过缓存策略、预加载机制、层级复用等手段,系统性压缩启动时间。
02
推理调度策略研究
面对波动的用户请求,智能决策何时启动新实例、何时复用已有实例,在延迟与成本之间找到最优平衡点。设计并验证调度算法。
03
多阶段推理流水线
实际AI应用涉及多模型串联/并联调用(如RAG中的检索+生成)。研究关键路径识别与端到端延迟优化策略。