在 ASP.NET Core 中构建集成 Puppeteer 与 Keras 的异构分析服务架构

后端架构

文章字数: 3.9k

阅读时长: 18 分

一个看似简单的需求摆在了面前：我们需要一个服务，它能接收一个URL，然后分析该页面渲染后的视觉内容。这彻底排除了仅靠HTTP抓取HTML文本进行解析的方案。业务场景要求我们必须处理JavaScript动态渲染、Canvas绘图甚至WebGL生成的内容。ML团队已经提供了一个基于Keras的图像分类模型，用于判断截图中的特定视觉元素；而前端的同事则推荐使用Puppeteer，因为它能完美地驱动一个真实的Chrome浏览器实例。

我的技术栈是ASP.NET Core。问题来了：如何在一个C#进程里，高效、稳定地调度一个Node.js进程（Puppeteer）和一个Python进程（Keras）来协同完成任务？

最初的构想，也是最容易想到的方案，是使用System.Diagnostics.Process。当请求到来时，启动一个node进程执行Puppeteer脚本，拿到截图后，再启动一个python进程执行Keras脚本进行分析。

// 一个绝对不能在生产中使用的天真实现
public async Task<string> NaiveAnalyzeUrl(string url)
{
    // 步骤1：调用Puppeteer截图
    var screenshotPath = Path.GetTempFileName() + ".png";
    var puppeteerStartInfo = new ProcessStartInfo
    {
        FileName = "node",
        Arguments = $"puppeteer_worker.js {url} {screenshotPath}",
        // ... 其他配置
    };

    using (var puppeteerProcess = Process.Start(puppeteerStartInfo))
    {
        await puppeteerProcess.WaitForExitAsync();
        if (puppeteerProcess.ExitCode != 0)
        {
            throw new Exception("Puppeteer failed.");
        }
    }

    // 步骤2：调用Keras分析
    var kerasStartInfo = new ProcessStartInfo
    {
        FileName = "python",
        Arguments = $"keras_worker.py {screenshotPath}",
        RedirectStandardOutput = true,
        // ... 其他配置
    };

    using (var kerasProcess = Process.Start(kerasStartInfo))
    {
        var result = await kerasProcess.StandardOutput.ReadToEndAsync();
        await kerasProcess.WaitForExitAsync();
        if (kerasProcess.ExitCode != 0)
        {
            throw new Exception("Keras failed.");
        }
        return result;
    }
}

这个方案的弊端在性能和稳定性上是致命的。

进程启动开销: 每次请求都需要创建并销毁两个子进程。Node.js和Python的运行时启动、库加载，尤其是Keras模型的加载，耗时可能是几百毫秒甚至数秒。在高并发下，CPU和内存开销会急剧飙升。
脆弱的通信: 通过命令行参数和临时文件进行数据交换，不仅速度慢（磁盘I/O），而且极不可靠。错误处理和状态传递几乎是一场灾难。
资源管理混乱: 无法有效控制子进程的数量，很容易耗尽系统资源。

这个方案在原型验证阶段就被否决了。我们需要一个生产级的架构。核心思路必须从“按需启动”转变为“常驻工作池”。ASP.NET Core作为主服务（Orchestrator），负责管理一组长期运行的Puppeteer和Keras工作进程（Worker），并通过高效的进程间通信（IPC）机制进行调度。

架构决策：基于TCP的常驻工作池

我们评估了多种IPC方案：

HTTP/gRPC: 为每个Worker进程都实现一个HTTP或gRPC服务。优点是标准化，易于跨语言。缺点是网络栈的开销相对较大，对于本机进程通信而言有些重。
命名管道/Unix域套接字: 性能极佳，是本机IPC的理想选择。缺点是跨平台实现略有差异，且需要处理更底层的连接逻辑。
消息队列 (Redis/RabbitMQ): 提供了极好的解耦和异步能力。但为此引入一个外部中间件依赖，对于这个项目的初期阶段来说，增加了架构复杂性和运维成本。

最终，我们选择了一种折中的、务实的方案：基于本地TCP套接字的轻量级RPC。ASP.NET Core在启动时，会创建并维护一个Puppeteer Worker池和一个Keras Worker池。每个Worker进程在启动时监听一个由主进程动态分配的本地端口。主进程通过这个端口与Worker进行通信。

这种方式的优势在于：

性能: 本地回环网络接口（Loopback）的TCP通信非常快，开销远小于完整HTTP请求。
跨平台: TCP套接字是所有主流平台的标准功能，C#, Node.js, Python都有成熟的库支持。
资源预热: Keras模型可以在Python Worker启动时就加载到内存中，Puppeteer也可以预先启动浏览器实例。后续请求免去了这些冷启动开销。
可控性: 主进程可以精确控制Worker池的大小，实现连接管理、健康检查和故障恢复。

graph TD
    subgraph "ASP.NET Core Host Process"
        A[RESTful API Endpoint] --> B{Analysis Orchestrator Service}
        B --> C[Puppeteer Worker Pool]
        B --> D[Keras Worker Pool]
        C -- Acquire/Release --> CW1(Worker Client)
        C -- Acquire/Release --> CW2(Worker Client)
        D -- Acquire/Release --> KW1(Worker Client)
        D -- Acquire/Release --> KW2(Worker Client)
    end

    subgraph "Node.js Process Pool"
        P1[Puppeteer Worker 1]
        P2[Puppeteer Worker 2]
    end
    
    subgraph "Python Process Pool"
        K1[Keras Worker 1]
        K2[Keras Worker 2]
    end

    CW1 -- TCP --> P1
    CW2 -- TCP --> P2
    KW1 -- TCP --> K1
    KW2 -- TCP --> K2
    
    B -- "1. URL" --> CW1
    CW1 -- "2. Screenshot Bytes" --> B
    B -- "3. Screenshot Bytes" --> KW1
    KW1 -- "4. Analysis JSON" --> B
    B -- "5. Result" --> A

第一部分：ASP.NET Core 编排器与工作池实现

我们需要一个通用的工作池来管理任何类型的子进程Worker。

1. 通信协议定义

为了避免引入复杂的序列化库，我们定义一个极简的二进制协议：[4字节长度信息 (大端序)] + [消息体]。发送方先发送一个32位整数表示后续消息体的字节长度，然后发送消息体本身。接收方先读取4个字节，解析出长度，然后精确读取该长度的数据。

2. `WorkerProcess` 封装

这个类负责启动和管理一个子进程。

// Models/WorkerProcess.cs

using System.Diagnostics;
using System.Net;
using System.Net.Sockets;

public class WorkerProcess : IDisposable
{
    private readonly Process _process;
    private readonly ILogger _logger;
    
    public int Port { get; }
    public bool IsAlive => !_process.HasExited;

    private WorkerProcess(Process process, int port, ILogger logger)
    {
        _process = process;
        Port = port;
        _logger = logger;
    }

    public static WorkerProcess Start(string executable, string arguments, ILogger logger)
    {
        int port = GetFreeTcpPort();
        var processStartInfo = new ProcessStartInfo
        {
            FileName = executable,
            Arguments = $"{arguments} --port {port}",
            RedirectStandardOutput = true,
            RedirectStandardError = true,
            UseShellExecute = false,
            CreateNoWindow = true,
        };

        var process = new Process { StartInfo = processStartInfo };

        // 异步日志记录
        process.OutputDataReceived += (sender, args) => { if (args.Data != null) logger.LogInformation($"[{process.Id}] STDOUT: {args.Data}"); };
        process.ErrorDataReceived += (sender, args) => { if (args.Data != null) logger.LogError($"[{process.Id}] STDERR: {args.Data}"); };
        
        process.Start();
        process.BeginOutputReadLine();
        process.BeginErrorReadLine();

        logger.LogInformation($"Started worker process {process.Id} ({executable}) on port {port}");
        return new WorkerProcess(process, port, logger);
    }
    
    private static int GetFreeTcpPort()
    {
        var listener = new TcpListener(IPAddress.Loopback, 0);
        listener.Start();
        int port = ((IPEndPoint)listener.LocalEndpoint).Port;
        listener.Stop();
        return port;
    }

    public void Dispose()
    {
        if (!_process.HasExited)
        {
            try
            {
                _process.Kill(entireProcessTree: true);
                _logger.LogWarning($"Killed worker process {_process.Id}.");
            }
            catch (Exception ex)
            {
                _logger.LogError(ex, $"Failed to kill worker process {_process.Id}.");
            }
        }
        _process.Dispose();
    }
}

这里的坑在于：必须正确处理子进程的stdout和stderr。如果不异步读取这些流，一旦缓冲区被填满，子进程就会被阻塞，导致整个系统死锁。

3. `WorkerClient` 与 `WorkerPool`

WorkerClient 封装了与单个Worker的TCP通信。WorkerPool则管理一组WorkerClient，实现获取、释放、健康检查等逻辑。

// Services/WorkerClient.cs
public class WorkerClient : IDisposable
{
    private readonly TcpClient _client;
    private readonly NetworkStream _stream;
    public WorkerProcess Process { get; }

    public WorkerClient(WorkerProcess process)
    {
        Process = process;
        _client = new TcpClient();
        // 这里的连接逻辑需要有重试机制，因为子进程启动需要时间
        ConnectWithRetry();
        _stream = _client.GetStream();
    }

    private void ConnectWithRetry(int retries = 5, int delayMs = 200)
    {
        for (int i = 0; i < retries; i++) {
            try {
                _client.Connect(IPAddress.Loopback, Process.Port);
                return;
            } catch (SocketException) {
                if (i == retries - 1) throw;
                Task.Delay(delayMs).Wait();
            }
        }
    }

    public async Task<byte[]> SendAndReceiveAsync(byte[] payload)
    {
        // 写入长度
        var lengthBytes = BitConverter.GetBytes(IPAddress.HostToNetworkOrder(payload.Length));
        await _stream.WriteAsync(lengthBytes, 0, 4);
        // 写入数据
        await _stream.WriteAsync(payload, 0, payload.Length);
        await _stream.FlushAsync();

        // 读取长度
        var lengthBuffer = new byte[4];
        await _stream.ReadExactlyAsync(lengthBuffer, 0, 4);
        var responseLength = IPAddress.NetworkToHostOrder(BitConverter.ToInt32(lengthBuffer, 0));

        // 读取数据
        var responseBuffer = new byte[responseLength];
        await _stream.ReadExactlyAsync(responseBuffer, 0, responseLength);

        return responseBuffer;
    }

    public void Dispose()
    {
        _stream.Dispose();
        _client.Dispose();
    }
}

// Services/WorkerPool.cs
using System.Collections.Concurrent;

public class WorkerPool<TConfig> : IDisposable where TConfig : WorkerConfig
{
    private readonly ConcurrentBag<WorkerClient> _pool = new();
    private readonly TConfig _config;
    private readonly ILoggerFactory _loggerFactory;
    private readonly ILogger<WorkerPool<TConfig>> _logger;
    private List<WorkerProcess> _processes = new();

    public WorkerPool(TConfig config, ILoggerFactory loggerFactory)
    {
        _config = config;
        _loggerFactory = loggerFactory;
        _logger = loggerFactory.CreateLogger<WorkerPool<TConfig>>();
        Initialize();
    }

    private void Initialize()
    {
        for (int i = 0; i < _config.PoolSize; i++)
        {
            try
            {
                var process = WorkerProcess.Start(_config.ExecutablePath, _config.Arguments, _loggerFactory.CreateLogger<WorkerProcess>());
                _processes.Add(process);
                _pool.Add(new WorkerClient(process));
            }
            catch (Exception ex)
            {
                _logger.LogCritical(ex, "Failed to start a worker process during initialization.");
                // 在真实项目中，这里可能需要更复杂的启动失败策略
            }
        }
    }

    public async Task<T> ExecuteAsync<T>(Func<WorkerClient, Task<T>> action)
    {
        if (!_pool.TryTake(out var client))
        {
            throw new InvalidOperationException("No available workers in the pool.");
        }

        try
        {
            // 健康检查：确保进程存活
            if (!client.Process.IsAlive)
            {
                _logger.LogWarning($"Worker process {client.Process.Id} is dead. It will be replaced.");
                client.Dispose(); 
                // 创建一个新worker替换
                var newProcess = WorkerProcess.Start(_config.ExecutablePath, _config.Arguments, _loggerFactory.CreateLogger<WorkerProcess>());
                _processes.Add(newProcess); // 注意线程安全
                client = new WorkerClient(newProcess);
            }
            return await action(client);
        }
        finally
        {
            _pool.Add(client);
        }
    }

    public void Dispose()
    {
        foreach (var client in _pool)
        {
            client.Dispose();
        }
        foreach (var process in _processes)
        {
            process.Dispose();
        }
    }
}

4. 注册与使用

我们将配置和Worker池注册为单例服务。

// appsettings.json
{
  "PuppeteerWorker": {
    "ExecutablePath": "node",
    "Arguments": "Workers/puppeteer_worker.js",
    "PoolSize": 4
  },
  "KerasWorker": {
    "ExecutablePath": "python",
    "Arguments": "Workers/keras_worker.py",
    "PoolSize": 2
  }
}

// Program.cs
public abstract class WorkerConfig {
    public string ExecutablePath { get; set; }
    public string Arguments { get; set; }
    public int PoolSize { get; set; }
}
public class PuppeteerWorkerConfig : WorkerConfig { }
public class KerasWorkerConfig : WorkerConfig { }

// ... in main
var builder = WebApplication.CreateBuilder(args);
builder.Services.Configure<PuppeteerWorkerConfig>(builder.Configuration.GetSection("PuppeteerWorker"));
builder.Services.Configure<KerasWorkerConfig>(builder.Configuration.GetSection("KerasWorker"));

builder.Services.AddSingleton(sp => {
    var config = sp.GetRequiredService<IOptions<PuppeteerWorkerConfig>>().Value;
    var loggerFactory = sp.GetRequiredService<ILoggerFactory>();
    return new WorkerPool<PuppeteerWorkerConfig>(config, loggerFactory);
});
builder.Services.AddSingleton(sp => {
    var config = sp.GetRequiredService<IOptions<KerasWorkerConfig>>().Value;
    var loggerFactory = sp.GetRequiredService<ILoggerFactory>();
    return new WorkerPool<KerasWorkerConfig>(config, loggerFactory);
});

// ... The analysis service
public class AnalysisService
{
    private readonly WorkerPool<PuppeteerWorkerConfig> _puppeteerPool;
    private readonly WorkerPool<KerasWorkerConfig> _kerasPool;

    public AnalysisService(WorkerPool<PuppeteerWorkerConfig> puppeteerPool, WorkerPool<KerasWorkerConfig> kerasPool)
    {
        _puppeteerPool = puppeteerPool;
        _kerasPool = kerasPool;
    }

    public async Task<string> AnalyzeUrlAsync(string url)
    {
        // 1. Get screenshot
        var screenshotBytes = await _puppeteerPool.ExecuteAsync(async client =>
        {
            var requestBytes = Encoding.UTF8.GetBytes(url);
            return await client.SendAndReceiveAsync(requestBytes);
        });

        if (screenshotBytes == null || screenshotBytes.Length == 0)
        {
            throw new Exception("Failed to get screenshot.");
        }
        
        // 2. Analyze image
        var analysisJson = await _kerasPool.ExecuteAsync(async client =>
        {
            var responseBytes = await client.SendAndReceiveAsync(screenshotBytes);
            return Encoding.UTF8.GetString(responseBytes);
        });

        return analysisJson;
    }
}

第二部分：Puppeteer Worker (Node.js)

这个Worker脚本需要解析命令行传入的--port参数，并启动一个TCP服务器。它会预先启动一个浏览器实例，然后为每个请求创建一个新的页面，这样可以隔离会话，同时复用浏览器进程。

// Workers/puppeteer_worker.js
const net = require('net');
const puppeteer = require('puppeteer');
const yargs = require('yargs/yargs');
const { hideBin } = require('yargs/helpers');

const argv = yargs(hideBin(process.argv)).option('port', {
    alias: 'p',
    type: 'number',
    description: 'Port to listen on',
    required: true
}).argv;

const PORT = argv.port;

(async () => {
    // 启动时预热浏览器实例
    const browser = await puppeteer.launch({
        args: ['--no-sandbox', '--disable-setuid-sandbox'] // 在Docker/Linux环境中至关重要
    });
    console.log(`Puppeteer worker started, browser instance created.`);

    const server = net.createServer(socket => {
        console.log('Client connected.');
        socket.on('data', async data => {
            try {
                // 这是简化的协议解析，真实项目需要更健壮的流式解析
                let messageLength = data.readInt32BE(0);
                let url = data.toString('utf8', 4, 4 + messageLength);

                console.log(`Processing URL: ${url}`);
                const page = await browser.newPage();
                await page.setViewport({ width: 1280, height: 800 });
                await page.goto(url, { waitUntil: 'networkidle0', timeout: 15000 });
                
                const screenshotBuffer = await page.screenshot();
                await page.close();

                const lengthBuffer = Buffer.alloc(4);
                lengthBuffer.writeInt32BE(screenshotBuffer.length, 0);
                socket.write(Buffer.concat([lengthBuffer, screenshotBuffer]));
            } catch (err) {
                console.error('Error processing request:', err);
                // 发送一个空响应表示失败
                const emptyLength = Buffer.alloc(4);
                emptyLength.writeInt32BE(0, 0);
                socket.write(emptyLength);
            }
        });

        socket.on('end', () => {
            console.log('Client disconnected.');
        });
        
        socket.on('error', (err) => {
            console.error('Socket error:', err);
        });
    });

    server.listen(PORT, '127.0.0.1', () => {
        console.log(`Puppeteer worker listening on 127.0.0.1:${PORT}`);
    });

    process.on('SIGTERM', async () => {
        console.log('SIGTERM signal received. Closing browser.');
        await browser.close();
        server.close(() => {
            process.exit(0);
        });
    });

})();

一个常见的错误是，没有处理数据分片（chunking）。TCP是流协议，data事件可能只收到部分数据。上面代码为了简化，假设一个请求的数据在一个data事件中完整到达，这在负载高时是不可靠的。生产级代码需要一个状态机来解析协议，不断累积buffer直到接收完一个完整的消息。

第三部分：Keras Worker (Python)

Python Worker的逻辑类似。它使用socketserver创建一个简单的TCP服务，并在启动时加载模型。模型加载是昂贵的操作，将其置于服务循环之外是关键的性能优化。

# Workers/keras_worker.py
import socketserver
import struct
import argparse
import numpy as np
import tensorflow as tf
from PIL import Image
import io
import json
import sys

# 在启动时加载模型
# 使用一个简单的预训练模型作为示例
model = tf.keras.applications.MobileNetV2(weights='imagenet')
print("Keras model loaded.", flush=True)

def preprocess_image(image_bytes):
    img = Image.open(io.BytesIO(image_bytes)).convert('RGB')
    img = img.resize((224, 224))
    img_array = tf.keras.preprocessing.image.img_to_array(img)
    img_array = np.expand_dims(img_array, axis=0)
    return tf.keras.applications.mobilenet_v2.preprocess_input(img_array)

class TCPHandler(socketserver.BaseRequestHandler):
    def handle(self):
        try:
            # 读取4字节长度
            length_bytes = self.request.recv(4)
            if not length_bytes:
                return
            
            msg_len = struct.unpack('>I', length_bytes)[0]
            
            # 读取图像数据
            image_data = b''
            while len(image_data) < msg_len:
                chunk = self.request.recv(min(msg_len - len(image_data), 4096))
                if not chunk:
                    break
                image_data += chunk
            
            print(f"Received {len(image_data)} bytes of image data.", flush=True)

            # 预处理和预测
            processed_image = preprocess_image(image_data)
            predictions = model.predict(processed_image)
            decoded_predictions = tf.keras.applications.mobilenet_v2.decode_predictions(predictions, top=3)[0]
            
            results = [{'label': label, 'description': desc, 'score': float(score)} for _, label, desc, score in decoded_predictions]
            
            response_json = json.dumps(results)
            response_bytes = response_json.encode('utf-8')
            
            # 发送响应
            self.request.sendall(struct.pack('>I', len(response_bytes)) + response_bytes)
        except Exception as e:
            print(f"Error processing request: {e}", file=sys.stderr, flush=True)
            # 发送空响应表示错误
            self.request.sendall(struct.pack('>I', 0))


if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    parser.add_argument("--port", type=int, required=True, help="Port to listen on")
    args = parser.parse_args()

    HOST, PORT = "127.0.0.1", args.port

    with socketserver.TCPServer((HOST, PORT), TCPHandler) as server:
        print(f"Keras worker listening on {HOST}:{PORT}", flush=True)
        server.serve_forever()

这个Python脚本实现了更健壮的数据接收逻辑，它会循环接收数据直到满足消息长度要求。flush=True对于print函数至关重要，否则在子进程中日志可能会被缓冲，导致主进程无法实时看到输出。

架构的局限性与未来迭代

这套架构解决了最初的问题，提供了一个相对稳定和高性能的异构服务解决方案。但它并非完美，在真实项目中，还有几个方面需要考虑：

通信协议的健壮性: 当前的长度前缀协议非常基础。它没有版本控制、没有错误码、没有元数据传递机制。随着业务变复杂，迁移到Protobuf或FlatBuffers可能是更好的选择。
Worker健康检查与恢复: 当前的健康检查非常被动——只有在下次使用时才发现Worker进程已死。一个主动的健康检查机制（例如，Worker定期向主进程发送心跳，或者主进程定期向Worker发送ping请求）能更早地发现并替换掉失效的Worker。
动态扩缩容: Worker池的大小是固定的。面对潮汐流量，一个理想的系统应该能根据请求队列的长度或CPU/内存使用率动态地增加或减少Worker进程数量。
容器化与部署: 这整个架构非常适合容器化。ASP.NET Core主服务、Puppeteer Worker和Keras Worker可以分别打包成独立的Docker镜像。使用Docker Compose或Kubernetes进行部署，可以简化依赖管理和进程隔离。在Kubernetes中，可以为每种Worker创建一个Deployment，ASP.NET Core服务通过K8s Service来发现并连接到这些Worker Pod，从而将进程池管理的工作交由更专业的平台来处理。
资源隔离: Keras（尤其是TensorFlow后端）和Puppeteer都是资源消耗大户。将它们部署在同一台机器上可能会互相干扰。在容器化环境中，为不同类型的Worker Pod设置明确的CPU和内存requests/limits是保证服务稳定性的关键步骤。