Notice
Recent Posts
Recent Comments
Link
목록vllm (1)
허허의 오늘은 뭐 먹지?
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bGisDd/btsL0nhyDxP/gJsA5vglJvn9ThAkkxnI7k/img.png)
vLLM에 대해 간단히 정리해보겠다.1. vLLM이란?vLLM은 대규모 언어 모델(LLM)을 빠르고 메모리 효율적으로 서빙(inference)하기 위해 만들어진 오픈소스 엔진이다.기존 파이프라인보다 높은 처리량(throughput)과 낮은 지연(latency)을 제공하면서도, 메모리 사용량(memory footprint)을 최소화하는 것을 목표로 한다.여러 사용자(세션)의 요청을 동시에 처리하거나, 대규모 모델을 제한된 자원(GPU 메모리 등)에서 효율적으로 돌려야 할 때 큰 이점을 제공한다.2. 왜 만들어졌나?LLM의 규모 확장최근 수십 억~수천 억 파라미터 규모의 모델(예: GPT, LLaMA, BLOOM 등)들이 등장하면서, 모델 추론 시 필요한 자원(GPU 메모리, CPU/GPU 연산)이 크게 늘..
AI
2025. 1. 24. 16:41