Red Hat AI Inference Server 소개 및 설치 가이드 (Linux)
“LLM 서버 직접 깔아본 사람만 안다, 토큰은 싸도 인프라는 비싸다는 걸.” 그래서 나온 게 Red Hat AI Inference Server입니다. 엔터프라이즈급 운영이 가능하면서도, 개발자 입장에선 vLLM 한 번 잘 감싼 “편리한 상자”라고 보면 이해가 훨씬 쉽습니다.
1. Red Hat AI Inference Server란?
Red Hat AI Inference Server는 다양한 LLM·생성형 모델을 하이브리드 클라우드 전반에서 빠르고 비용 효율적으로 서빙하기 위한 엔터프라이즈용 추론 서버입니다.
vLLM을 코어 엔진으로 사용하며, LLM Compressor, 검증된 모델 리포지토리, 다양한 AI 가속기 지원을 하나로 패키징한 제품입니다.
- 하이브리드 클라우드 전반(온프레미스, 퍼블릭 클라우드, 엣지)에서 동일한 추론 환경 제공.
- 다양한 가속기(NVIDIA, AMD, Intel, IBM, 클라우드 벤더 GPU 등)를 지원하는 통합 추론 레이어.
- OpenAI 호환 API를 제공해 기존 애플리케이션과의 연동 부담을 대폭 줄여줍니다.
2. 주요 특징 정리
2.1 vLLM 기반 고성능 추론
- vLLM 코어 엔진: PagedAttention, continuous batching 등을 활용해 전통적인 서빙 대비 수 배 수준의 토큰 처리량을 목표로 합니다.
- 멀티 GPU·대용량 context 지원: 텐서/파이프라인 병렬화를 통해 큰 모델과 긴 컨텍스트를 효율적으로 처리합니다.
- 고효율 메모리 관리: KV 캐시 관리 최적화로 GPU 메모리 사용을 줄이고 처리량을 높입니다.
2.2 엔터프라이즈 패키징
- Hardened vLLM 배포판: 테스트·검증된 vLLM 이미지를 Red Hat이 패키지로 제공합니다.
- 검증된 모델 리포지토리: Hugging Face 상 Red Hat AI 조직에 최적화·검증된 모델들을 제공해 바로 서빙 가능하도록 합니다.
- LLM Compressor 연계: 양자화·압축 도구를 통해 모델 크기를 줄이면서도 정확도를 유지·개선하도록 지원합니다.
2.3 유연한 배포와 API
- “어디서든” 배포: RHEL / RHEL AI / OpenShift는 물론, 정책상 허용되는 범위 내에서 기타 Linux·Kubernetes에도 배포 가능합니다
- OpenAI 호환 HTTP API: 대부분의 클라이언트 라이브러리가 그대로 동작하도록 설계되어 애플리케이션 변경을 최소화합니다.
- 엔터프라이즈 운영 기능: 모니터링·로그·보안·업그레이드와 같은 운영 측면을 Red Hat 제품군과 통합하도록 설계되었습니다.
3. Inference Server vs vLLM: 뭐가 다른가?
핵심은 “엔진(vLLM)”과 “차량(Inference Server)”의 관계로 보면 이해가 쉽습니다. vLLM은 오픈소스 추론 엔진이고, Red Hat AI Inference Server는 그 엔진을 탑재한 상용·운영 패키지입니다.
3.1 개념적 차이
| 항목 | Red Hat AI Inference Server | vLLM (오픈소스) |
|---|---|---|
| 성격 | 상용 엔터프라이즈 제품 | 오픈소스 추론 엔진 |
| 코어 엔진 | 내부적으로 vLLM 포함 | vLLM 자체 |
| 목적 | 하이브리드 클라우드용 통합 추론 플랫폼 | LLM 고성능 서빙 엔진 제공 |
| 지원 | Red Hat 기술 지원, 보안·하드닝 | 커뮤니티/자체 지원 |
3.2 기능·운영 관점 차이
| 관점 | Red Hat AI Inference Server | vLLM (단독 사용) |
|---|---|---|
| 설치 방식 | Red Hat 제공 컨테이너 이미지 및 문서 기반, RHEL/OpenShift에 최적화 | PyPI, Docker, 직접 빌드 등 자유 |
| 모델 리포지토리 | Red Hat이 검증·최적화한 모델 카탈로그 제공 | Hugging Face 등에서 직접 선택·검증 필요 |
| 최적화 도구 | LLM Compressor와 통합, 양자화·압축 워크플로우 제공 | 별도의 양자화 도구를 직접 통합해야 함 |
| 지원 플랫폼 | RHEL AI, OpenShift, 기타 Linux는 3rd-party 범위 | 어디서든 가능하나 운영은 전적으로 사용자 책임 |
| 보안·업데이트 | Red Hat 보안 공지, 패치, 수명 주기 관리 | 릴리스 노트를 보고 직접 업데이트 관리 |
정리하면, “그냥 vLLM 써서 돌리는 PoC”를 넘어, 조직 내 표준 AI 추론 플랫폼으로 가져가고 싶을 때 Inference Server가 의미를 가집니다.
4. Linux에서 설치: Step-by-step 따라하기
아래는 단일 Linux 서버(NVIDIA GPU) 환경에서 Red Hat AI Inference Server 컨테이너를 띄워보는 흐름입니다. 기본적으로 RHEL 9 계열을 기준으로 하지만, 컨테이너 런타임·GPU 스택 조건만 맞으면 Rocky 등에서도 기술적으로는 유사한 방식으로 동작합니다 (Rocky는 공식 지원 OS는 아님).
4.1 사전 요구사항 체크
- OS 및 권한
- RHEL 9.x 계열 (또는 호환 Linux), sudo 권한 계정.
- Red Hat 계정 및 구독
registry.redhat.io에 접근 가능한 Red Hat 계정 및 Inference Server 서브스크립션.
- GPU 및 드라이버
- 데이터센터급 NVIDIA GPU (예: A100, L40S 등) + 호환 드라이버 설치.
nvidia-smi로 정상 인식 확인.
- 컨테이너 런타임
- Podman (Red Hat 권장) 또는 Docker 설치.
- Hugging Face 토큰
- HF 계정 생성 후 Access Token 발급 (프라이빗 모델 또는 HF 허브 연동 시 필요).
4.2 Podman 및 GPU 스택 설치 (예시)
# Podman 설치 (RHEL 9 계열 예시)
sudo dnf install -y podman
# NVIDIA 드라이버 설치 후, 컨테이너에서 사용할 수 있도록 NVIDIA Container Toolkit 설치
# (배포판별 공식 가이드 참고)
nvidia-smi # 정상 출력되는지 확인
NVIDIA Container Toolkit 설치 방법은 GPU 및 배포판에 따라 다르므로, 공식 NVIDIA 문서를 참고해 설정해야 합니다.
4.3 Red Hat 레지스트리 로그인
# Red Hat 레지스트리 로그인
podman login registry.redhat.io
# 사용자 이름 / 패스워드는 Red Hat Customer Portal 자격 증명 사용
Inference Server 이미지를 받으려면 적절한 구독이 활성화되어 있어야 합니다.
4.4 Inference Server 컨테이너 이미지 Pull
버전·가속기별로 이미지가 나뉩니다. 예를 들어 NVIDIA CUDA 기반 vLLM 이미지는 다음과 같은 형식을 가집니다.
# 예: vLLM + CUDA + RHEL9 기반 Inference Server 이미지 (버전은 환경에 맞게 조정)
podman pull registry.redhat.io/rhaiis/vllm-cuda-rhel9:3.2.5
IBM Spyre, AMD ROCm 등 다른 하드웨어용 이미지는 공식 Getting Started 문서에서 해당 섹션의 이미지 이름을 확인해 사용해야 합니다.
4.5 SELinux 및 볼륨 준비
SELinux가 활성화된 환경에서는 디바이스 접근 및 볼륨 마운트를 허용하도록 설정이 필요합니다.
# 예시: 모델/로그를 위한 로컬 디렉터리 생성
sudo mkdir -p /opt/rhaiis/models
sudo mkdir -p /opt/rhaiis/logs
sudo chown -R $USER:$USER /opt/rhaiis
# 필요 시 SELinux 컨텍스트 조정 (정책에 맞게 조정)
# 예시: 테스트용으로 label 비활성화
# --security-opt label=disable 옵션을 컨테이너 실행 시 사용
4.6 환경 변수 준비 (모델·토큰 등)
HF 허브에서 모델을 불러오거나, 특정 경로의 모델을 사용할 수 있도록 환경 변수를 세팅합니다.
export HUGGING_FACE_HUB_TOKEN="hf_xxx" # 필요 시
export RHAIIS_MODEL_ID="granite-3.3-8b-instruct" # 예시 모델 ID
export RHAIIS_PORT=8000
모델 ID는 Red Hat AI가 제공하는 검증된 모델 목록 또는 Hugging Face의 모델 이름을 사용할 수 있습니다.
4.7 Inference Server 컨테이너 실행 (예: NVIDIA GPU)
아래는 NVIDIA GPU + vLLM 기반 Inference Server를 단일 서버에서 띄우는 예시입니다.
podman run --rm -d \
--name rhaiis-vllm \
--gpus all \
-p ${RHAIIS_PORT}:8000 \
-e HF_TOKEN="${HUGGING_FACE_HUB_TOKEN}" \
-e MODEL_ID="${RHAIIS_MODEL_ID}" \
-v /opt/rhaiis/models:/models \
-v /opt/rhaiis/logs:/logs \
--security-opt=label=disable \
registry.redhat.io/rhaiis/vllm-cuda-rhel9:3.2.5
MODEL_ID에 따라 기본 로딩 모델이 결정되며, 일부 이미지는 설정 방식이 다를 수 있어 공식 문서의 샘플 명령을 참고해야 합니다.- 하드웨어별로
--device·--group-add등 추가 옵션이 필요할 수 있습니다 (예: IBM Spyre용--device=/dev/vfio등).
컨테이너 로그로 모델 로딩 상태를 확인합니다.
podman logs -f rhaiis-vllm
5. 설치 후 간단 테스트
Inference Server는 일반적으로 OpenAI 호환 HTTP API를 제공합니다. 따라서 curl로 간단히 호출해 볼 수 있습니다.
5.1 Health Check
curl http://localhost:${RHAIIS_PORT}/health
- 200 OK 또는 헬스 상태 JSON이 오면 기본 서버는 정상 동작 중입니다 (엔드포인트는 이미지/버전에 따라 다를 수 있어 문서를 확인해야 합니다).
5.2 Chat Completion 테스트 (OpenAI 호환 예시)
curl http://localhost:${RHAIIS_PORT}/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "'"${RHAIIS_MODEL_ID}"'",
"messages": [
{"role": "user", "content": "안녕, 지금은 어떤 모델이 나를 응답하고 있니?"}
],
"max_tokens": 64,
"temperature": 0.2
}'
- 정상 동작 시
choices[0].message.content에 한국어 응답 텍스트가 포함된 JSON이 반환됩니다. - 이 API는 OpenAI 스타일이므로, Python
openai/requests, JSfetch등으로도 바로 연동할 수 있습니다.
5.3 간단 성능 확인 아이디어
- 짧은 프롬프트를 여러 번 연속 호출해 초당 토큰 수를 대략적으로 측정해 볼 수 있습니다.
- 요청 동시성을 조금씩 올려보며 지연 시간과 처리량 변화를 관찰하면 vLLM 기반의 continuous batching 효과를 체감할 수 있습니다.
6. 마치며,,,,
LLM을 올려보면 금방 느끼시겠지만, “모델 하나 띄우는 것”과 “서비스로 굴리는 것” 사이에는 꽤 깊은 갭이 있습니다. Red Hat AI Inference Server는 그 갭을 엔터프라이즈급 운영 패키지로 메워주는 도구라고 보는 게 가장 현실적인 정의입니다.
이미 vLLM을 직접 운영해보셨다면, 이제는 “하우징된 vLLM + 운영 패키지”를 한 번 경험해 보시는 것도 좋습니다. 오늘은 단일 서버에 띄워봤지만, 다음 단계로는 OpenShift에 올려서 스케일링·모니터링까지 “AI 플랫폼화” 하는 시나리오도 충분히 노려볼 수 있습니다.
'Internet Tech > AI' 카테고리의 다른 글
| Google Gemini & Canvas Server Guide & Use case (4) | 2025.07.14 |
|---|---|
| Google Gemini & Cavnas 서비스 소개와 활용 (1) | 2025.07.14 |
| AI Agent MCP \& Agent to Agent Integration: The New Paradigm of Workplace Automation in 2025 (3) | 2025.06.13 |
| AI Agent MCP & Agent to Agent 통합 (0) | 2025.06.12 |
| llm multi-agent, autogen 이란? (0) | 2025.01.21 |