목록AI (13)
허허의 오늘은 뭐 먹지?
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bGisDd/btsL0nhyDxP/gJsA5vglJvn9ThAkkxnI7k/img.png)
vLLM에 대해 간단히 정리해보겠다.1. vLLM이란?vLLM은 대규모 언어 모델(LLM)을 빠르고 메모리 효율적으로 서빙(inference)하기 위해 만들어진 오픈소스 엔진이다.기존 파이프라인보다 높은 처리량(throughput)과 낮은 지연(latency)을 제공하면서도, 메모리 사용량(memory footprint)을 최소화하는 것을 목표로 한다.여러 사용자(세션)의 요청을 동시에 처리하거나, 대규모 모델을 제한된 자원(GPU 메모리 등)에서 효율적으로 돌려야 할 때 큰 이점을 제공한다.2. 왜 만들어졌나?LLM의 규모 확장최근 수십 억~수천 억 파라미터 규모의 모델(예: GPT, LLaMA, BLOOM 등)들이 등장하면서, 모델 추론 시 필요한 자원(GPU 메모리, CPU/GPU 연산)이 크게 늘..
쉽게 말하면 sLLM은 LLM에 비해 매개변수가 100B이하정도로 상대적으로 적은 LLM이다. 100B도 작진 않지만... 그래도 요새 나오는 LLM모델들에 비하면 작다는 얘기.Llama, Phi, Mistral.. 그리고 요새 한참 얘기 나오고 있는 Deepseek까지..sLLM에 대해서 아주 기초적인 내용을 정리해보려고 한다. SLLM은 문자 그대로 “Smaller Large Language Model(더 작아진 대규모 언어 모델)”을 가리키는 용어로, 기존의 초거대 언어 모델(LLM)에서 파라미터 수나 모델 크기를 줄여 경량화한 모델을 의미한다. 일반적으로 수십억~수천억 개에 달하는 파라미터를 지닌 초거대 언어 모델과 달리, SLLM은 상대적으로 소규모의 파라미터를 유지하면서도 대규모 모델의 핵심 ..
AI 인프라 프로바이더(AI Infrastructure Provider)는 AI/ML(머신 러닝) 모델을 개발하고 운영하는 데 필요한 컴퓨팅, 스토리지, 네트워킹, 소프트웨어(플랫폼) 등을 클라우드 혹은 온프레미스 형태로 제공하는 업체를 뜻한다.1. AI 인프라 프로바이더 개요1.1 정의AI 인프라 프로바이더는 대규모 연산이 필요한 AI/ML 워크로드(예: 모델 학습, 추론, 데이터 처리)를 효율적으로 수행할 수 있는 환경을 구축해 주는 공급자다.CPU보다 훨씬 빠른 병렬 연산 능력을 제공하는 GPU, TPU, FPGA 등 특화 하드웨어와, 대량의 데이터를 빠르게 주고받을 수 있는 고성능 네트워크, 그리고 이 모든 리소스를 쉽게 관리·오케스트레이션할 수 있는 소프트웨어 스택을 패키지로 제공한다.1.2 주..
GPT에서 말하는 "토큰(Token)"이란, 텍스트(문자열)를 모델이 처리할 수 있는 단위로 쪼개어 놓은 것을 의미한다.예를 들어, 사람이 작성한 글(문장, 단어, 문장부호 등)을 GPT가 이해하기 위해선 이를 내부적으로 작은 조각들(토큰)으로 분할해야 한다.아래는 토큰에 대한 주요 특징이다:텍스트의 최소 처리 단위토큰은 단어 전체가 될 수도 있고, 단어의 일부(접사)나 문장부호가 붙은 형태가 될 수도 있다.예를 들어, “playing”이라는 단어가 play + ing 두 개의 토큰으로 분리될 수 있다.공백, 구두점, 특별 기호 등도 독립된 토큰으로 처리될 수 있다.언어 모델 학습과 추론에 활용GPT는 입력으로 들어오는 텍스트를 토큰 단위로 인식하고, 각 토큰을 벡터(수치)로 변환해 모델에 입력한다.모델..
"GPT에서 메모리"라고 말할 때, 주로 GPT 모델이 대화를 기억하고 맥락을 유지하는 방법을 의미한다. GPT(ChatGPT 포함)는 사람이 대화를 이어갈 때마다 이전에 주고받은 메시지를 어느 정도 **‘문맥(Context)’**으로 인식하고 답변을 생성한다. 다만 이 ‘메모리’는 사람이 생각하는 장기 저장장치 같은 개념과는 다소 차이가 있다. 간단히 정리하면 다음과 같다.토큰 단위의 문맥(Context Window)GPT는 내부적으로 텍스트를 ‘토큰(token)’이라는 단위로 처리한다.일정 범위(예: 몇 천~수만 개)의 토큰 안에서만 과거 대화를 ‘기억’하고, 그 범위 바깥 내용은 잊어버린다.즉, 현재 대화에서 특정 길이까지만 GPT가 맥락을 반영할 수 있다.장기 저장소는 없다일반적으로 ChatGPT..
You are my business writing assistant. Draft a formal email (under 200 words) to our client at ABC Corporation regarding the status of our ongoing project and propose a video conference next Wednesday at 10 AM. Requirements:1) Use a polite, professional tone.2) Avoid sharing any confidential details about the project.3) Start with "Hello [Client Name]," and end with "Best regards," followed by a..
ChatGPT 프롬프트 작성 가이드ChatGPT에 질문하거나 요구사항을 전달할 때는, 간결하면서도 구체적인 지시사항을 포함하는 프롬프트를 작성해야 원하는 결과를 얻을 확률이 높아진다. 아래 가이드를 참고해 효과적인 프롬프트를 구성한다.프롬프트의 목적을 명확히 한다해결하고 싶은 문제, 얻고 싶은 정보, 생성하고자 하는 텍스트의 종류를 분명히 정의한다.예: “마케팅 이메일 초안을 작성해 달라”보다 “신제품 스마트폰을 홍보하는 영문 마케팅 이메일 초안을 작성해 달라”라고 하면 보다 구체적인 결과를 얻는다.배경 정보와 맥락을 제공한다필요한 경우, 해당 작업을 수행하기 위한 최소한의 배경 정보나 조건을 제공한다.예: 어떤 독자를 대상으로 하는지, 어떤 문체나 형식을 원하는지, 어느 정도의 전문성을 요구하는지 등을..
LLM은 최근 AI 트랜드의 기본이다.다시한번 정리해보려고 한다. LLM(Large Language Model)이란?LLM은 대규모 데이터를 학습하여 자연어를 이해하고 생성하는 언어 모델이다. 수십억에서 수천억 개 이상의 매개변수를 보유하며, 인간과 유사한 수준으로 문장을 이해하고 적절한 답변을 생성하거나 텍스트를 생성할 수 있다.주요 특징:대규모 데이터 학습: 웹, 책, 논문 등 방대한 텍스트 데이터를 기반으로 학습하여 다양한 문맥과 언어 패턴을 이해한다.확장 가능성: GPT, GPT-3, GPT-4 같은 모델은 대규모 병렬 처리와 분산 컴퓨팅 기술로 더 큰 데이터와 매개변수를 학습할 수 있다.다목적 활용: 질문 답변, 글쓰기, 번역, 요약 등 다목적 작업을 수행할 수 있다.LLM의 발전 과정LLM은 ..
Recall@1이란 무엇인가?Recall@1은 정보 검색 시스템이나 추천 시스템에서 검색된 결과의 정확성을 측정하는 지표로, 첫 번째 검색 결과(Top 1 결과)가 얼마나 자주 정답을 포함하는지를 평가한다. 이는 검색 시스템이 사용자의 질문에 대해 가장 관련성이 높은 정보를 정확히 상위에 반환하는지를 나타낸다.Recall@1의 의미전체 정답 중에서 첫 번째 검색 결과가 정답을 포함할 확률을 나타낸다.Recall@1 = (정답이 첫 번째 결과로 반환된 횟수) / (전체 검색 요청 수) 로 계산한다.예를 들어, 사용자가 100번 질문했을 때 첫 번째 검색 결과에 정답이 70번 포함되었다면, Recall@1은 70%가 된다.Recall@1의 예시검색 시스템의 예시사용자가 "서울의 날씨는?"이라는 질문을 했을 ..
온디바이스 AI 구현이란?온디바이스 AI는 데이터를 클라우드 서버로 전송하지 않고 기기 자체에서 처리하는 AI 기술을 의미한다. 이 방식은 네트워크 연결 없이도 동작하며, 데이터 프라이버시를 보호하고, 실시간 응답 속도를 제공하며, 네트워크 비용과 지연 시간을 줄이는 데 기여한다. 이를 구현하기 위해 다양한 최적화 및 기술 전략이 필요하다.온디바이스 AI 구현 전략1. 모델 최적화 및 경량화모델의 크기를 줄이기 위해 프루닝(Pruning)과 양자화(Quantization)를 적용한다. 이를 통해 메모리 사용량과 계산 복잡도를 줄인다.지식 증류(Knowledge Distillation)를 활용하여 대형 모델의 성능을 경량 모델로 전달한다.스파스 모델링(Sparse Modeling)을 통해 모델 내부의 희소..