框架选择

预计学习时间：30分钟

推理框架是模型部署的核心基础设施，选择合适的框架可以显著提升推理性能和开发效率。

主流推理框架对比

TensorFlow Serving

TensorFlow Serving是Google开发的高性能推理服务器，专为生产环境设计，提供稳定的API和高效的模型部署方案。

核心特性

模型版本管理：支持同时加载多个模型版本，平滑切换和回滚
高性能服务：C++实现的服务引擎，针对生产环境优化
灵活API：支持gRPC和REST接口
批处理优化：自动批处理请求以提高吞吐量

架构组件

ServableManager：管理模型的生命周期（加载、服务、卸载）
Sources：从存储系统发现和加载模型
Loaders：处理模型版本转换和资源分配
Batchers：合并多个请求以提高处理效率

# 使用Docker运行TensorFlow Serving
docker run -p 8501:8501 \
  --mount type=bind,source=/path/to/model,target=/models/my_model \
  -e MODEL_NAME=my_model \
  tensorflow/serving

适用场景：TensorFlow模型的企业级部署，需要版本管理和高并发处理的场景

TorchServe

核心特性

简易部署：为PyTorch模型提供简单的部署流程
模型管理：支持模型的注册、卸载和扩展
REST API：提供标准化的HTTP接口
指标监控：内置Prometheus集成，提供丰富的性能指标

# 创建模型存档
torch-model-archiver --model-name densenet161 \
  --version 1.0 \
  --model-file model.py \
  --serialized-file densenet161-8d451a50.pth \
  --handler image_classifier

# 启动TorchServe
torchserve --start \
  --model-store model_store \
  --models densenet161.mar

适用场景：PyTorch生态系统的研究原型到生产环境的快速部署

ONNX Runtime

核心特性

跨平台兼容：支持多种框架导出的ONNX模型
性能优化：自动应用图优化、算子融合等技术
广泛硬件支持：从CPU到各种专用硬件加速器
轻量级集成：可嵌入到现有应用中

# ONNX Runtime推理示例
import onnxruntime as ort
import numpy as np

# 创建推理会话
session = ort.InferenceSession("model.onnx")

# 准备输入数据
input_name = session.get_inputs()[0].name
input_data = np.random.rand(1, 3, 224, 224).astype(np.float32)

# 执行推理
output = session.run(None, {input_name: input_data})

适用场景：需要跨平台部署、优化性能或使用混合框架的场景

Triton Inference Server

核心特性

多框架支持：同时支持TensorFlow、PyTorch、ONNX、TensorRT等
动态批处理：自适应批处理策略，优化吞吐量
并发模型执行：不同模型可同时执行
模型集成：支持推理管道和模型集成

# 使用Docker运行Triton Server
docker run --gpus=all -p 8000:8000 -p 8001:8001 -p 8002:8002 \
  -v /path/to/models:/models \
  nvcr.io/nvidia/tritonserver:21.08-py3 tritonserver \
  --model-repository=/models

适用场景：GPU加速的推理服务，需要支持多种模型格式的统一部署平台

框架性能对比

延迟对比

以ResNet-50模型为例，各框架在不同硬件上的推理延迟（毫秒/张图片）：

框架	CPU (Intel Xeon)	GPU (NVIDIA T4)	GPU (NVIDIA A100)
TensorFlow Serving	42.5	8.3	2.7
TorchServe	38.2	9.1	3.1
ONNX Runtime	35.7	7.6	2.4
Triton + TensorRT	36.1	5.2	1.8

吞吐量对比

在NVIDIA T4 GPU上的吞吐量（图片/秒）：

框架	批次大小=1	批次大小=8	批次大小=32
TensorFlow Serving	120	520	960
TorchServe	110	480	890
ONNX Runtime	132	580	1020
Triton + TensorRT	190	780	1350

框架选择考虑因素

技术生态匹配度

原始模型框架：与训练框架的兼容性（PyTorch→TorchServe，TensorFlow→TF Serving）
工具链集成：与现有CI/CD、监控系统的兼容性
社区活跃度：更新频率、文档质量、问题解决资源

部署需求

性能要求：延迟敏感 vs 吞吐量优先
扩展性：水平扩展能力、多模型支持
硬件环境：CPU生产环境、GPU加速、边缘设备
服务形式：容器化、云服务集成、嵌入式系统

运维复杂度

部署难度：配置复杂性、依赖管理
监控支持：内置指标、日志系统集成
版本管理：模型更新流程、回滚能力
资源占用：内存、CPU/GPU利用效率

框架选择决策树

推理框架选择决策树

实战示例：模型服务化对比

TensorFlow Serving实现

# 准备TensorFlow SavedModel
import tensorflow as tf

model = tf.keras.applications.ResNet50(weights='imagenet')

# 创建推理签名
@tf.function(input_signature=[tf.TensorSpec(shape=[None, 224, 224, 3], dtype=tf.float32)])
def serving_fn(input_imgs):
    return {'predictions': model(input_imgs)}

# 导出SavedModel
tf.saved_model.save(
    model,
    'resnet50/1/',  # 版本化路径
    signatures={'serving_default': serving_fn}
)

# 客户端调用（通过REST API）
import requests
import json
import numpy as np
from PIL import Image

def preprocess_image(image_path):
    img = Image.open(image_path).resize((224, 224))
    img_array = np.array(img) / 255.0
    return np.expand_dims(img_array, axis=0).tolist()

data = json.dumps({
    "signature_name": "serving_default",
    "instances": preprocess_image('cat.jpg')
})

response = requests.post(
    "http://localhost:8501/v1/models/resnet50:predict",
    data=data
)

predictions = json.loads(response.text)['predictions']

ONNX Runtime Web API实现

# 使用FastAPI创建ONNX推理服务
from fastapi import FastAPI, File, UploadFile
import onnxruntime as ort
import numpy as np
from PIL import Image
import io

app = FastAPI()

# 加载ONNX模型
session = ort.InferenceSession("resnet50.onnx")
input_name = session.get_inputs()[0].name

# 预处理函数
def preprocess(img_data):
    img = Image.open(io.BytesIO(img_data)).resize((224, 224))
    img_array = np.array(img).astype(np.float32) / 255.0
    # 确保输入格式符合模型要求（如NCHW格式）
    img_array = np.transpose(img_array, (2, 0, 1))
    return np.expand_dims(img_array, axis=0)

@app.post("/predict")
async def predict(file: UploadFile = File(...)):
    img_data = await file.read()
    input_tensor = preprocess(img_data)
    
    # 执行推理
    outputs = session.run(None, {input_name: input_tensor})
    
    # 后处理结果
    probabilities = outputs[0][0]
    top5_indices = np.argsort(probabilities)[-5:][::-1]
    
    return {
        "predictions": [
            {"class_id": int(idx), "score": float(probabilities[idx])}
            for idx in top5_indices
        ]
    }

最佳实践与小结

最佳实践建议

先做性能基准测试：
- 使用真实工作负载和生产级硬件
- 测量延迟、吞吐量和资源使用率
考虑全生命周期管理：
- 模型更新策略
- 线上监控与警报
- 性能异常检测
优先标准化：
- 使用REST/gRPC等标准接口
- 考虑微服务架构集成
- 构建统一的模型管理平台

小结

选择推理框架时需综合考虑：

业务需求：性能要求与功能需求
开发生态：与现有技术栈的兼容性
运维成本：部署复杂度与监控能力

理想的推理框架应该：

满足性能要求
简化部署流程
提供可靠的监控能力
适应业务变化与模型迭代

下一节，我们将讨论推理硬件的选择策略，探索不同硬件平台的性能特点和成本效益。