rihard7854@alien.topB to

LocalLLaMAEnglish · 2 years ago

NVidia H200 achieves nearly 12,000 tokens/sec on Llama2-13B with TensorRT-LLM

1

NVidia H200 achieves nearly 12,000 tokens/sec on Llama2-13B with TensorRT-LLM

rihard7854@alien.topB to

LocalLLaMAEnglish · 2 years ago

Chat

lengyue233@alien.topB
link
fedilink
English
arrow-up
1·
2 years ago
Are u going to talk with Yuki at 1024 batch size?