企业大模型工程化的探索实践｜AICon北京站

12 月 19-20 日， AICon全球人工智能开发与应用大会收官之站将在北京举办，本次大会将以 “探索 AI 应用边界” 为主题，聚焦企业级 Agent 落地、上下文工程、AI 产品创新等多个热门方向，围绕企业如何通过大模型提升研发与业务运营效率的实际应用案例，邀请来自阿里、字节、华为、京东、快手、美团等头部企业、大厂以及明星创业公司的专家，带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能，发掘 AI 驱动业务增长的新路径！

硅基流动资深产品技术专家伏光莲已确认出席并将在「大模型系统工程」专题发表题为《企业大模型工程化，从异构算力统一接入到训推闭环的探索实践》的主题分享。企业 AI 应用正从验证走向规模化，基础设施需要系统性解决算力利用、训练/微调、部署/推理与治理等问题。

本演讲聚焦工程实践，围绕异构算力的统一接入与调度到训推一体化的端到端方案，展开国产芯片适配与算子兼容、并行与通信优化（拓扑感知、带宽优先、KV-Cache）、推理成本工程（量化/切分/混部）、以及可靠性与运维（SLO、故障域、观测性）与安全合规（身份、审计、数据边界）等关键议题。结合电力、能源、制造、金融与互联网场景，给出可复现配置、指标与权衡，并复盘典型反模式与踩坑。目标是提供一套可迁移的工程基线，帮助团队在规模化场景下降低 TCO、稳定达标 SLO，加速从 PoC 到生产化落地。

伏光莲在企业级 MaaS（Model-as-a-Service）平台研发、AI 基础设施构建及智能化解决方案领域具有深厚积累。负责硅基流动企业级 MaaS 平台的产品规划与技术落地，聚焦于通过异构算力整合、国产芯片性能加速、大模型一站式应用等路径，降低企业 AI 应用开发门槛与提升模型推理效率。深度参与平台核心产品（私有化大模型云服务平台）的演进，该平台整合了百余款开源大模型（如 Qwen 系列、GLM-4、DeepSeek 等），并通过整合自研推理引擎 SiliconLLM 和图像生成加速库 SiliconDiff，实现模型推理性能的显著提升，同步注重多租户隔离、数据安全与成本优化，助力企业实现生成式 AI 技术的规模化应用。她在本次会议的详细演讲内容如下：

1.引言：
企业大模型应用的算力挑战大模型算力需求的指数级增长（逆摩尔定律，每 3-4 个月翻番）
当前，企业在推进大模型规模化工程落地时普遍面临以下挑战：
国产芯片模型适配速度慢，拖慢业务创新
推理性能与成本难以兼顾，制约规模化应用
可靠性要求高，系统容错与运维能力不足
模型输出质量与稳定性影响应用可信度
安全与合规压力持续加大
国产芯片与异构算力整合的必要性与战略价值
2.异构算力整合的技术路径与实践方案
硬件层：多元芯片的协同创新
国产芯片突破：昇腾等性能接近国际水平
异构计算架构：CPU/GPU/FPGA/ASIC 的差异化优势组合策略
高速互联技术：PCIe、NCCL、NVLink 等提升通信效率
软件层：跨平台调度与优化
推理加速技术：模型量化、采样、并行、调度与大 EP＋PD 分离策略
模型微调：多 lora 适配异构云模式：解决
异构、异域、异属算力的统一管理
平台化实践案例
未来发展趋势
芯片技术：异构 GPU 集成与存算一体架构突破内存限制
算法演进：MoE 架构（PD 分离，AF 分离）与轻量化技术降低端侧部署成本
产业生态：算力交易市场与普惠化发展趋势
总结与展望
听众收益：
了解可落地的“选型—适配—部署—优化”方法：快速引入并筛选模型（模型库+评测基线+Multi-LoRA），统一接入异构/国产芯片并进行推理加速（KV/Prefix/Continuous Batching、PD 分离），附关键指标与权衡，直接用于工程决策与落地。
获得稳定性与安全的工程清单：多租户隔离、精细化权限与全链路审计、限流与抗攻击、分钟级恢复与秒级弹性扩缩容；在大规模并发下实现“高性能、低成本、可合规、可运维”。

除此之外，本次大会还策划了LLM 时代的软件研发新范式、Context Engineering、Data+AI / Agent 落地实践、大模型系统工程、企业级 Agent 的设计与落地、大模型时代下的搜广推系统实践、多模态从技术突破到创新应用落地等 10 多个专题论坛，届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。

现在报名即可以享受 8 折优惠，单张门票立省 1160 元，详情可扫码或联系票务经理 13269078023 咨询。

创作场景

企业大模型工程化的探索实践｜AICon 北京站