latency

ML infra: tensorRT 使用

之前尝试过用huggingface的transformer的library来下载bertmodel,并且简单的跑了一下。今天就打算测试一下CPU和gpu跑模型的性能,然后用trtllm优化一下,看能够优化到多少。

cuda latency infra tensorrt to 2025-04-22 00:35  7

在HFT上班的一年半: A Junior's

书接上回, 不知不觉 2024 年就过完了. 总算迎来了期待已久的年末大休假. 在 2025 年 1 月 1 日的清晨, 美美的吃完一顿早安山丘的豆浆油条后, 打算浅浅地回顾一下这过去一年的工作, 进步与不足 以及 2025 年的展望.

pipeline latency hft 2025-01-03 01:13  16