金融服務業涵蓋廣泛、錯綜複雜的場景,而同業同樣的問題也可以反應於其他產業。如果只使用 70B 的語言模型,推論成本太高;如果使用 30B 以下的模型,則無法滿足場景要求。因此,能夠在適當的情況下同時使用 70B 和 30B 模型進行推論非常重要。我們開發了一種動態分配的專家組合 (CoE),具有基於 NVIDIA TensorRT-LLM 的基於 Transformer 的語言模型。透過 CoE,可以根據不同的任務動態調整合適的 LLM 模型進行推論。結果表明,計算成本降低了 30% 以上。