로컬 LLM 완벽 가이드 - 내 컴퓨터에서 ChatGPT 무료로 돌리기 (Ollama 사용법)

ChatGPT 유료 결제가 부담스럽다면?

매달 ChatGPT Plus 구독료 20달러가 부담스럽거나, 회사에서 보안 때문에 ChatGPT를 못 쓰는 분들이 많습니다. 하지만 이제는 내 컴퓨터에서 ChatGPT와 비슷한 AI를 무료로 돌릴 수 있습니다. 바로 ‘로컬 LLM’이라는 기술 덕분입니다.

이 글에서는 프로그래밍 경험이 없어도 쉽게 따라할 수 있도록 로컬 LLM을 설치하고 사용하는 방법을 단계별로 알려드리겠습니다.

로컬 LLM이란?

쉽게 말하면

로컬 LLM(Local Large Language Model)은 ChatGPT 같은 AI 모델을 인터넷 없이 내 컴퓨터에서 직접 실행하는 것을 말합니다. ‘Local’은 ‘내 컴퓨터에서’라는 뜻이고, ‘LLM’은 대규모 언어 모델을 의미합니다.

ChatGPT와 무엇이 다른가?

ChatGPT는 OpenAI 서버에서 돌아갑니다. 여러분이 질문을 입력하면 그 내용이 인터넷을 통해 OpenAI 서버로 전송되고, 서버에서 답변을 계산해서 다시 보내줍니다.

반면 로컬 LLM은 내 컴퓨터에 AI 모델을 설치해서 모든 처리를 내 컴퓨터에서 합니다. 인터넷이 필요 없고, 내 데이터가 외부로 나가지 않습니다.

로컬 LLM의 장점

1. 완전 무료

한 번 설치하면 평생 무료입니다. 월 구독료도, 토큰 제한도 없습니다. 하루 종일 사용해도 추가 비용이 발생하지 않습니다.

2. 데이터 보안

회사 기밀, 개인정보 같은 민감한 데이터를 입력해도 안전합니다. 모든 처리가 내 컴퓨터 안에서만 일어나기 때문입니다. 금융권, 법무법인, 의료기관처럼 보안이 중요한 곳에서 특히 유용합니다.

3. 인터넷 불필요

비행기 안, 지하철, 와이파이가 없는 곳에서도 사용할 수 있습니다. 네트워크 속도에 영향받지 않습니다.

4. 커스터마이징 가능

내 용도에 맞게 모델을 조정하거나, 회사 문서로 학습시킬 수도 있습니다.

로컬 LLM의 단점

솔직하게 단점도 말씀드려야겠죠.

1. 성능은 조금 낮음

최신 ChatGPT-4o나 Claude Sonnet보다는 답변 품질이 낮습니다. 하지만 일상적인 질문, 코딩 도움, 문서 작성 정도는 충분히 잘 합니다.

2. 컴퓨터 사양 필요

최소 RAM 8GB는 있어야 하고, 16GB 이상을 권장합니다. 그래픽카드(GPU)가 있으면 훨씬 빠릅니다.

3. 초기 설치 용량

모델 파일이 4GB~40GB 정도로 꽤 큽니다. 처음 다운로드할 때 시간이 좀 걸립니다.

Ollama – 가장 쉬운 로컬 LLM

로컬 LLM을 사용하는 방법은 여러 가지가 있지만, Ollama가 가장 쉽고 인기 있습니다. 복잡한 설정 없이 몇 번의 클릭과 명령어만으로 AI를 실행할 수 있습니다.

Ollama가 인기 있는 이유

– 설치가 매우 간단함 (5분 이내)
– Windows, Mac, Linux 모두 지원
– 다양한 모델 선택 가능
– 무료 오픈소스
– 활발한 커뮤니티

Ollama 설치하기

1단계: Ollama 다운로드

ollama.com에 접속해서 자신의 운영체제에 맞는 버전을 다운로드합니다.

– Windows: “Download for Windows” 클릭
– Mac: “Download for macOS” 클릭
– Linux: 터미널에서 설치 명령어 실행

2단계: 설치

다운로드한 파일을 실행하고 안내에 따라 설치합니다. 일반 프로그램 설치와 동일하게 “다음” 버튼만 누르면 됩니다.

3단계: 설치 확인

명령 프롬프트(Windows) 또는 터미널(Mac/Linux)을 열고 다음 명령어를 입력합니다:

ollama --version

버전 정보가 나오면 정상 설치된 것입니다.

첫 번째 AI 모델 실행하기

Ollama는 여러 AI 모델을 지원합니다. 초보자에게는 Llama3를 추천합니다.

모델 다운로드 및 실행

터미널에서 다음 명령어를 입력합니다:

ollama run llama3

처음 실행하면 모델을 다운로드합니다. 약 4.7GB 크기라 인터넷 속도에 따라 5~10분 정도 걸립니다.

다운로드가 완료되면 바로 대화를 시작할 수 있습니다!

실제 사용 예시

>>> 안녕하세요! Python으로 리스트를 정렬하는 방법을 알려주세요.

안녕하세요! Python에서 리스트를 정렬하는 방법은 여러 가지가 있습니다:

1. sort() 메서드 사용:
numbers = [3, 1, 4, 1, 5]
numbers.sort()
print(numbers)  # [1, 1, 3, 4, 5]

2. sorted() 함수 사용:
numbers = [3, 1, 4, 1, 5]
sorted_numbers = sorted(numbers)
print(sorted_numbers)  # [1, 1, 3, 4, 5]

sort()는 원본 리스트를 변경하고, sorted()는 새로운 리스트를 반환합니다.

종료하려면 /bye를 입력하면 됩니다.

실전 활용 예제

1. 코딩 도우미

>>> Python으로 엑셀 파일 읽는 코드 예제 보여줘

import pandas as pd

# 엑셀 파일 읽기
df = pd.read_excel('파일명.xlsx')

# 데이터 확인
print(df.head())

2. 문서 요약

>>> 다음 내용을 3줄로 요약해줘:
[긴 문서 내용 붙여넣기]

요약:
1. 주요 내용 1
2. 주요 내용 2
3. 주요 내용 3

3. 번역

>>> 다음 영어를 한국어로 번역해줘:
"Machine learning is a subset of artificial intelligence."

"머신러닝은 인공지능의 하위 분야입니다."

더 편하게 사용하기 – GUI 프로그램

터미널이 불편하다면 GUI 프로그램을 사용할 수 있습니다.

Open WebUI

ChatGPT처럼 웹 브라우저에서 사용할 수 있는 인터페이스입니다.

설치:

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data --name open-webui \
  --restart always ghcr.io/open-webui/open-webui:main

브라우저에서 localhost:3000에 접속하면 ChatGPT와 유사한 인터페이스로 사용할 수 있습니다.

Ollama Desktop (비공식)

Windows용 데스크톱 앱도 있습니다. 더 직관적인 UI를 원한다면 검색해보세요.

프로그래밍에 연동하기

개발자라면 Ollama를 코드에서 직접 사용할 수 있습니다.

Python 예제

import requests
import json

def ask_ollama(prompt):
    url = "http://localhost:11434/api/generate"
    data = {
        "model": "llama3",
        "prompt": prompt,
        "stream": False
    }
    
    response = requests.post(url, json=data)
    result = response.json()
    return result['response']

# 사용
answer = ask_ollama("Python으로 Hello World 출력하는 방법")
print(answer)

JavaScript 예제

async function askOllama(prompt) {
  const response = await fetch('http://localhost:11434/api/generate', {
    method: 'POST',
    headers: {
      'Content-Type': 'application/json'
    },
    body: JSON.stringify({
      model: 'llama3',
      prompt: prompt,
      stream: false
    })
  });
  
  const data = await response.json();
  return data.response;
}

// 사용
const answer = await askOllama('JavaScript 변수 선언 방법');
console.log(answer);

이렇게 하면 자신만의 AI 챗봇 서비스를 만들 수 있습니다.

성능 최적화 팁

1. GPU 활용

NVIDIA 그래픽카드가 있다면 자동으로 GPU를 사용합니다. 속도가 10배 이상 빨라집니다.

2. 모델 크기 선택

처음에는 작은 모델(phi3, llama3)로 시작해서 필요하면 큰 모델로 업그레이드하세요.

3. 메모리 관리

사용하지 않는 모델은 삭제해서 공간을 확보하세요:

ollama list        # 설치된 모델 확인
ollama rm phi3     # 모델 삭제

4. 컨텍스트 길이 조정

짧은 대화만 한다면 컨텍스트를 줄여서 메모리를 절약할 수 있습니다:

ollama run llama3 --ctx-size 2048

자주 묻는 질문

Q: 정말 무료인가요?

A: 네, Ollama와 대부분의 모델은 완전 무료 오픈소스입니다. 숨겨진 비용이 없습니다.

Q: 한국어를 잘 이해하나요?

A: Llama3, Gemma2 같은 최신 모델은 한국어를 꽤 잘 이해합니다. 하지만 영어보다는 조금 부족합니다.

Q: 회사에서 써도 되나요?

A: 대부분의 모델은 상업적 사용이 가능합니다. 다만 각 모델의 라이선스를 확인하세요.

Q: 모델을 동시에 여러 개 실행할 수 있나요?

A: 네, 메모리가 충분하면 가능합니다. 하지만 속도는 느려집니다.

Q: ChatGPT를 완전히 대체할 수 있나요?

A: 일상적인 용도는 충분하지만, 최신 정보 검색이나 매우 복잡한 추론은 ChatGPT가 더 낫습니다.

마치며

로컬 LLM은 무료로 AI를 사용할 수 있고, 데이터 보안도 지킬 수 있는 훌륭한 대안입니다. Ollama를 사용하면 복잡한 설정 없이 5분 안에 설치해서 바로 사용할 수 있습니다.

처음에는 작은 모델로 시작해서 사용법에 익숙해진 후, 필요에 따라 더 큰 모델을 시도해보세요. 컴퓨터 사양이 받쳐준다면 ChatGPT Plus를 대체할 수 있을 정도로 유용합니다.

지금 바로 ollama.com에 접속해서 무료 AI를 경험해보세요!