NVIDIA が、ローカルで大規模なモデルの実行を高速化する Windows 用 TensorRT-LLM ライブラリをリリース

NVIDIA は、TensorRT-LLM ライブラリの Windows バージョンをリリースし、 RTX 上の大規模モデルの実行速度が 4 倍向上すると発表しました。

Tensor コアと呼ばれる専用 AI プロセッサーを搭載した GeForce RTX および NVIDIA RTX GPU は、1 億台を超える Windows PC およびワークステーションにネイティブ生成 AI のパワーをもたらしています。

TensorRT-LLM は、最新の AI 大型モデル (Llama 2 や Code Llama など) を実行する上記の GPU の推論パフォーマンスを向上させるために使用されるオープンソース ライブラリです。先月、NVIDIA はデータセンター向け TensorRT-LLM をリリースしましたが、今回の Windows 向け TensorRT-LLM の最新リリースは主に家庭用コンピュータ向けであり、PC 上での LLM の実行速度が 4 倍向上しました。

NVIDIA は、開発者が LLM を高速化するのに役立つツールもリリースしました。これには、TensorRT-LLM を使用してカスタム モデルを最適化するためのスクリプト、TensorRT に最適化されたオープン ソース モデル、LLM の応答速度と品質を実証する開発者リファレンス プロジェクトが含まれます。

おすすめ

転載: www.oschina.net/news/262298/tensorrt-llm-windows-stable-diffusion-rtx