AI / 머신러닝2026-06-28·6분 읽기

Hugging Face Transformers: LLM과 NLP 실전 활용 가이드

Hugging Face Transformers 라이브러리를 활용하여 최신 LLM 및 NLP 모델을 구축하고 배포하는 실전 가이드입니다. 모델 학습, Fine-tuning, 추론 및 성능 최적화 전략을 다룹니다.

Hugging Face Transformers: LLM과 NLP 실전 활용 가이드

인공지능, 특히 자연어 처리(NLP) 분야는 최근 몇 년간 놀라운 속도로 발전해 왔습니다. 이러한 발전의 중심에는 방대한 양의 텍스트 데이터로 사전 학습된 대규모 언어 모델(LLM)들이 있으며, 이 모델들을 손쉽게 활용하고 확장할 수 있도록 돕는 핵심 도구 중 하나가 바로 Hugging Face의 Transformers 라이브러리입니다. 이 글에서는 Hugging Face Transformers 라이브러리의 기본적인 사용법부터 LLM 활용, Fine-tuning, 그리고 실제 프로덕션 환경에서의 성능 최적화까지, AI/ML 개발자 관점에서 실전적인 활용 방안을 심층적으로 다루고자 합니다.

Hugging Face Transformers: NLP 개발의 혁신

Hugging Face Transformers는 최신 NLP 모델들을 위한 오픈소스 라이브러리로, BERT, GPT, T5, Llama 등 수많은 사전 학습 모델과 Tokenizer를 제공합니다. 이 라이브러리의 가장 큰 장점은 강력한 추상화와 통일된 인터페이스를 통해 다양한 모델을 일관된 방식으로 사용할 수 있게 한다는 점입니다. PyTorch, TensorFlow, JAX 등 여러 딥러닝 프레임워크를 지원하며, 모델 학습 및 추론 과정을 간소화하여 개발자들이 모델 자체의 성능 개선에 집중할 수 있도록 돕습니다.

Transformers 라이브러리는 다음과 같은 핵심 구성 요소로 이루어져 있습니다.

Models: 사전 학습된 모델 가중치를 포함하며, 다양한 NLP 태스크(분류, 번역, 요약, 질문-답변 등)를 수행할 수 있습니다.
Tokenizers: 텍스트를 모델이 이해할 수 있는 숫자 토큰 시퀀스로 변환하는 역할을 합니다. 각 모델에 맞는 Tokenizer가 제공됩니다.
Pipelines: 특정 NLP 태스크를 위한 전처리, 모델 추론, 후처리 과정을 하나로 묶어 간편하게 사용할 수 있도록 합니다.

이러한 구성 요소들은 개발자가 복잡한 모델 아키텍처나 학습 과정을 깊이 이해하지 못하더라도, 강력한 NLP 모델을 자신의 애플리케이션에 통합할 수 있게 해주는 마법과도 같습니다.

Transformers 설치 및 기본 파이프라인 활용

Hugging Face Transformers 라이브러리를 시작하는 것은 매우 간단합니다. Python 환경에서 pip를 통해 설치할 수 있으며, GPU를 활용하려면 해당 딥러닝 프레임워크(예: PyTorch)도 함께 설치해야 합니다.

pip install transformers torch accelerate

설치가 완료되면, pipeline 기능을 사용하여 몇 줄의 코드로 다양한 NLP 태스크를 수행할 수 있습니다. pipeline은 전처리, 모델 추론, 후처리 과정을 모두 포함하여 사용자에게 최종 결과를 반환합니다.

from transformers import pipeline

# 감성 분석 (Sentiment Analysis)
classifier = pipeline("sentiment-analysis")
result = classifier("I love using Hugging Face Transformers for AI development!")
print(f"Sentiment Analysis: {result}")
# 출력 예시: [{'label': 'POSITIVE', 'score': 0.9998...}]

# 텍스트 요약 (Summarization)
summarizer = pipeline("summarization")
text_to_summarize = """
Hugging Face is a company that develops tools for building applications using machine learning. 
It is most famous for its Transformers library, which provides open-source implementations of 
transformer models such as BERT, T5, and GPT-2. The library has become a de facto standard 
for natural language processing (NLP) research and development due to its ease of use and 
broad model coverage.
"""
summary = summarizer(text_to_summarize, max_length=50, min_length=20, do_sample=False)
print(f"\nSummarization: {summary[0]['summary_text']}")

# 질문-답변 (Question Answering)
qa_pipeline = pipeline("question-answering")
question = "What is Hugging Face most famous for?"
context = "Hugging Face is a company that develops tools for building applications using machine learning. It is most famous for its Transformers library, which provides open-source implementations of transformer models such as BERT, T5, and GPT-2. The library has become a de facto standard for natural language processing (NLP) research and development due to its ease of use and broad model coverage."
answer = qa_pipeline(question=question, context=context)
print(f"\nQuestion Answering: {answer['answer']} (Score: {answer['score']:.2f})")

이처럼 pipeline은 NLP 초보자부터 숙련된 개발자까지 모두에게 강력하고 편리한 도구입니다.

사전 학습 모델 탐색 및 활용

pipeline이 특정 태스크를 위한 고수준 추상화라면, AutoModel과 AutoTokenizer는 모델과 Tokenizer를 직접 로드하여 세밀하게 제어할 수 있는 방법을 제공합니다. 이를 통해 특정 모델의 아키텍처를 이해하고, 다양한 태스크에 맞게 모델의 출력을 조작할 수 있습니다.

Hugging Face Hub는 수천 개의 사전 학습 모델을 호스팅하는 중앙 저장소입니다. 원하는 모델을 검색하고, 모델 카드에서 사용법과 성능 정보를 확인할 수 있습니다.

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# 한국어 감성 분석을 위한 모델 로드 (예: KLUE/BERT 기반)
model_name = "klue/bert-base" # 또는 "monologg/koelectra-base-v3-discriminator" 등
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

# 텍스트 토큰화
text = "이 영화 정말 재미있어요!"
inputs = tokenizer(text, return_tensors="pt") # PyTorch 텐서로 반환

# 모델 추론
with torch.no_grad():
    outputs = model(**inputs)

# 결과 해석 (예시: 이진 분류)
# KLUE/BERT-base는 주로 다국어/한국어 이해 태스크에 사용되므로, 
# 감성 분류를 위해서는 Fine-tuning된 모델을 사용하거나, 
# 분류 헤드를 직접 추가해야 합니다. 여기서는 일반적인 SequenceClassification 예시입니다.
logits = outputs.logits
predicted_class_id = logits.argmax().item()
print(f"\nPredicted class ID: {predicted_class_id}")
# 실제 감성 레이블은 모델 학습 시 사용된 레이블 맵에 따라 다릅니다.
# 보통 model.config.id2label에서 확인할 수 있습니다.
if hasattr(model.config, 'id2label'):
    print(f"Predicted label: {model.config.id2label[predicted_class_id]}")

AutoModelForSequenceClassification, AutoModelForTokenClassification, AutoModelForQuestionAnswering 등 특정 태스크에 특화된 AutoModel 클래스를 사용하면 해당 태스크에 맞는 출력 헤드가 자동으로 추가된 모델을 로드할 수 있습니다.

Custom 데이터셋으로 모델 Fine-tuning

사전 학습 모델은 방대한 일반 텍스트 데이터로 학습되었기 때문에 특정 도메인이나 태스크에는 최적화되어 있지 않을 수 있습니다. 이때 Custom 데이터셋을 사용하여 모델을 Fine-tuning하면 특정 태스크에서 모델의 성능을 크게 향상시킬 수 있습니다. Hugging Face는 Trainer API를 제공하여 Fine-tuning 과정을 간소화합니다.

데이터셋 준비

Fine-tuning을 위해서는 모델이 학습할 수 있는 형태로 데이터셋을 준비해야 합니다. 일반적으로 datasets 라이브러리를 사용하여 데이터를 로드하고 전처리합니다.

from datasets import load_dataset
from transformers import AutoTokenizer

# 예시: GLUE CoLA (Corpus of Linguistic Acceptability) 데이터셋
# 문장이 문법적으로 올바른지(1) 아닌지(0) 분류하는 태스크
dataset = load_dataset("glue", "cola")
tokenizer = AutoTokenizer.from_pretrained("klue/bert-base") # 한국어 모델 예시

def tokenize_function(examples):
    # 문장을 토큰화하고 모델 입력 형식에 맞게 변환
    return tokenizer(examples["sentence"], truncation=True)

# 데이터셋의 각 샘플에 대해 토큰화 함수 적용
tokenized_datasets = dataset.map(tokenize_function, batched=True)

# 불필요한 컬럼 제거 및 레이블 컬럼 이름 변경 (모델 학습에 필요)
tokenized_datasets = tokenized_datasets.remove_columns(["sentence", "idx"])
tokenized_datasets = tokenized_datasets.rename_column("label", "labels")

# 학습 데이터셋 형식 설정 (PyTorch 텐서)
tokenized_datasets.set_format("torch")

print("Tokenized Dataset Structure:")
print(tokenized_datasets["train"][0])

`Trainer` API를 활용한 Fine-tuning

Trainer API는 학습 루프, 평가, 로깅, 체크포인트 저장 등 Fine-tuning에 필요한 대부분의 작업을 자동으로 처리해 줍니다.

from transformers import AutoModelForSequenceClassification, TrainingArguments, Trainer
import numpy as np
import evaluate

# 모델 로드
model = AutoModelForSequenceClassification.from_pretrained("klue/bert-base", num_labels=2) # 2개의 클래스 (0 또는 1)

# 학습 인자 설정
training_args = TrainingArguments(
    output_dir="./results",
    learning_rate=2e-5,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    num_train_epochs=3,
    weight_decay=0.01,
    evaluation_strategy="epoch", # 에포크마다 평가
    save_strategy="epoch",       # 에포크마다 모델 저장
    load_best_model_at_end=True, # 학습 종료 시 최적 모델 로드
    metric_for_best_model="accuracy", # 최적 모델 선정 기준
    report_to="none" # 로깅 툴 (wandb, tensorboard) 사용 시 설정
)

# 평가 지표 설정 (CoLA 데이터셋은 Matthew's Correlation Coefficient 사용)
metric = evaluate.load("glue", "cola")

def compute_metrics(eval_pred):
    logits, labels = eval_pred
    predictions = np.argmax(logits, axis=-1)
    return metric.compute(predictions=predictions, references=labels)

# Trainer 인스턴스 생성
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    tokenizer=tokenizer,
    compute_metrics=compute_metrics,
)

# 모델 학습 시작
trainer.train()

# 학습된 모델 평가
eval_results = trainer.evaluate()
print(f"\nEvaluation Results: {eval_results}")

Trainer를 사용하면 복잡한 학습 코드를 직접 작성할 필요 없이, 몇 가지 설정만으로 효율적인 Fine-tuning을 수행할 수 있습니다.

LLM (Large Language Model) 추론 및 Prompt Engineering

최근 LLM의 발전은 NLP 분야의 패러다임을 바꾸고 있습니다. Hugging Face Transformers는 GPT-2, Llama, Falcon 등 다양한 LLM을 지원하며, 이를 활용하여 텍스트 생성, 번역, 질의응답 등 복잡한 태스크를 수행할 수 있습니다. LLM을 효과적으로 활용하기 위해서는 'Prompt Engineering'이 필수적입니다.

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

# 한국어 LLM 예시 (KoGPT2)
# 모델 크기가 크므로 GPU 환경에서 실행하는 것이 좋습니다.
# 모델 로드 시 시간이 다소 소요될 수 있습니다.
model_name = "skt/kogpt2-base-v2" 
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# GPU 사용 설정 (가능하다면)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

# 프롬프트 정의
prompt = "인공지능 기술은 미래 사회에"

# 프롬프트 토큰화
input_ids = tokenizer.encode(prompt, return_tensors="pt").to(device)

# 텍스트 생성
# do_sample=True: 샘플링 기반 생성 (다양한 결과)
# top_k, top_p: 샘플링 전략 제어
# no_repeat_ngram_size: 반복되는 n-gram 방지
# temperature: 생성의 무작위성 조절 (높을수록 무작위)
output_sequences = model.generate(
    input_ids=input_ids,
    max_length=50 + len(input_ids[0]), # 생성할 최대 토큰 수
    temperature=0.7,
    top_k=50,
    top_p=0.95,
    repetition_penalty=1.2,
    do_sample=True,
    num_return_sequences=1,
    pad_token_id=tokenizer.eos_token_id # 패딩 토큰 ID 설정
)

generated_text = tokenizer.decode(output_sequences[0], skip_special_tokens=True)
print(f"\nGenerated Text:\n{generated_text}")

# Prompt Engineering 예시: 역할 부여
prompt_role = "다음은 사용자 질문에 답변하는 친절한 AI 어시스턴트입니다.\n사용자: 오늘 날씨 어때?"
input_ids_role = tokenizer.encode(prompt_role, return_tensors="pt").to(device)
output_sequences_role = model.generate(
    input_ids=input_ids_role,
    max_length=100 + len(input_ids_role[0]),
    temperature=0.8,
    do_sample=True,
    num_return_sequences=1,
    pad_token_id=tokenizer.eos_token_id
)
generated_text_role = tokenizer.decode(output_sequences_role[0], skip_special_tokens=True)
print(f"\nGenerated Text (Role-based Prompt):\n{generated_text_role}")

Prompt Engineering은 모델의 출력을 원하는 방향으로 유도하기 위해 프롬프트를 신중하게 설계하는 기술입니다. 명확하고 구체적인 지시, 예시 제공, 역할 부여 등을 통해 LLM의 성능을 극대화할 수 있습니다.

성능 최적화 및 배포 전략

모델 학습 및 추론은 상당한 컴퓨팅 자원을 요구합니다. 특히 LLM의 경우 더욱 그러합니다. 따라서 실제 서비스 환경에 배포하기 위해서는 성능 최적화 전략이 중요합니다.

1. 양자화 (Quantization)

모델의 가중치를 낮은 정밀도(예: float32 -> int8)로 변환하여 모델 크기를 줄이고 추론 속도를 높이는 기술입니다. Hugging Face bitsandbytes 라이브러리와 통합되어 4-bit, 8-bit 양자화를 쉽게 적용할 수 있습니다.

from transformers import AutoModelForCausalLM, BitsAndBytesConfig
import torch

# 4비트 양자화 설정
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16,
    bnb_4bit_use_double_quant=True,
)

# 양자화된 모델 로드 (예: LLM)
# model = AutoModelForCausalLM.from_pretrained(
#     "facebook/opt-125m", # 더 큰 모델에 효과적
#     quantization_config=quantization_config,
#     device_map="auto"
# )
# print(f"Quantized Model Size (bytes): {model.get_memory_footprint()}")

2. ONNX Runtime 변환

ONNX(Open Neural Network Exchange)는 딥러닝 모델의 표준 포맷으로, 다양한 하드웨어와 런타임에서 모델을 효율적으로 실행할 수 있게 합니다. Transformers 모델을 ONNX로 변환하여 ONNX Runtime으로 추론하면 성능을 크게 향상시킬 수 있습니다.

from transformers import AutoTokenizer, AutoModelForSequenceClassification
from optimum.onnxruntime import ORTModelForSequenceClassification
from pathlib import Path

model_name = "klue/bert-base"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

# ONNX 모델 저장 경로
onnx_path = Path("./onnx_model")
onnx_path.mkdir(parents=True, exist_ok=True)

# 모델을 ONNX 형식으로 변환 및 저장
# ORTModelForSequenceClassification.from_pretrained(model_name, export=True, export_feature="sequence-classification", output=onnx_path)
# print(f"Model exported to ONNX at: {onnx_path}")

# 저장된 ONNX 모델 로드 및 추론 (예시)
# ort_model = ORTModelForSequenceClassification.from_pretrained(onnx_path)
# inputs = tokenizer("안녕하세요, ONNX 테스트입니다.", return_tensors="pt")
# outputs = ort_model(**inputs)

optimum 라이브러리는 Hugging Face 모델의 최적화 및 배포를 돕는 도구입니다.

3. 배치 추론 (Batch Inference)

여러 개의 입력을 한 번에 처리하는 배치 추론은 GPU 활용률을 높여 전체 추론 시간을 단축시킵니다. pipeline이나 AutoModel 사용 시에도 여러 입력을 리스트 형태로 전달하여 배치 추론을 활용할 수 있습니다.

4. 캐싱 (Caching)

LLM과 같은 생성 모델은 이전에 생성된 토큰들을 캐싱하여 다음 토큰을 더 빠르게 생성할 수 있습니다. model.generate 함수는 내부적으로 이 기능을 활용합니다.

이러한 최적화 전략들을 통해 Hugging Face Transformers 모델을 더욱 효율적으로 운영하고 실제 서비스에 성공적으로 배포할 수 있습니다.

마무리

Hugging Face Transformers 라이브러리는 최신 AI 모델, 특히 LLM과 NLP 모델을 개발하고 활용하는 데 있어 없어서는 안 될 핵심 도구입니다. 손쉬운 모델 접근, 강력한 Fine-tuning 기능, 그리고 다양한 최적화 옵션은 AI/ML 개발자들이 혁신적인 애플리케이션을 구축할 수 있도록 돕습니다. 이 가이드를 통해 Hugging Face Transformers의 무한한 가능성을 탐색하고, 여러분의 AI 프로젝트에서 성공적인 결과를 얻으시길 바랍니다.

#Hugging Face#Transformers#LLM#NLP#Fine-tuning#Python#AI#머신러닝#딥러닝

Hugging Face Transformers: LLM과 NLP 실전 활용 가이드

Hugging Face Transformers: NLP 개발의 혁신

Transformers 라이브러리는 다음과 같은 핵심 구성 요소로 이루어져 있습니다.

Models: 사전 학습된 모델 가중치를 포함하며, 다양한 NLP 태스크(분류, 번역, 요약, 질문-답변 등)를 수행할 수 있습니다.
Tokenizers: 텍스트를 모델이 이해할 수 있는 숫자 토큰 시퀀스로 변환하는 역할을 합니다. 각 모델에 맞는 Tokenizer가 제공됩니다.
Pipelines: 특정 NLP 태스크를 위한 전처리, 모델 추론, 후처리 과정을 하나로 묶어 간편하게 사용할 수 있도록 합니다.

Transformers 설치 및 기본 파이프라인 활용

pip install transformers torch accelerate

from transformers import pipeline

# 감성 분석 (Sentiment Analysis)
classifier = pipeline("sentiment-analysis")
result = classifier("I love using Hugging Face Transformers for AI development!")
print(f"Sentiment Analysis: {result}")
# 출력 예시: [{'label': 'POSITIVE', 'score': 0.9998...}]

# 텍스트 요약 (Summarization)
summarizer = pipeline("summarization")
text_to_summarize = """
Hugging Face is a company that develops tools for building applications using machine learning. 
It is most famous for its Transformers library, which provides open-source implementations of 
transformer models such as BERT, T5, and GPT-2. The library has become a de facto standard 
for natural language processing (NLP) research and development due to its ease of use and 
broad model coverage.
"""
summary = summarizer(text_to_summarize, max_length=50, min_length=20, do_sample=False)
print(f"\nSummarization: {summary[0]['summary_text']}")

# 질문-답변 (Question Answering)
qa_pipeline = pipeline("question-answering")
question = "What is Hugging Face most famous for?"
context = "Hugging Face is a company that develops tools for building applications using machine learning. It is most famous for its Transformers library, which provides open-source implementations of transformer models such as BERT, T5, and GPT-2. The library has become a de facto standard for natural language processing (NLP) research and development due to its ease of use and broad model coverage."
answer = qa_pipeline(question=question, context=context)
print(f"\nQuestion Answering: {answer['answer']} (Score: {answer['score']:.2f})")

이처럼 pipeline은 NLP 초보자부터 숙련된 개발자까지 모두에게 강력하고 편리한 도구입니다.

사전 학습 모델 탐색 및 활용

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# 한국어 감성 분석을 위한 모델 로드 (예: KLUE/BERT 기반)
model_name = "klue/bert-base" # 또는 "monologg/koelectra-base-v3-discriminator" 등
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

# 텍스트 토큰화
text = "이 영화 정말 재미있어요!"
inputs = tokenizer(text, return_tensors="pt") # PyTorch 텐서로 반환

# 모델 추론
with torch.no_grad():
    outputs = model(**inputs)

# 결과 해석 (예시: 이진 분류)
# KLUE/BERT-base는 주로 다국어/한국어 이해 태스크에 사용되므로, 
# 감성 분류를 위해서는 Fine-tuning된 모델을 사용하거나, 
# 분류 헤드를 직접 추가해야 합니다. 여기서는 일반적인 SequenceClassification 예시입니다.
logits = outputs.logits
predicted_class_id = logits.argmax().item()
print(f"\nPredicted class ID: {predicted_class_id}")
# 실제 감성 레이블은 모델 학습 시 사용된 레이블 맵에 따라 다릅니다.
# 보통 model.config.id2label에서 확인할 수 있습니다.
if hasattr(model.config, 'id2label'):
    print(f"Predicted label: {model.config.id2label[predicted_class_id]}")

Custom 데이터셋으로 모델 Fine-tuning

데이터셋 준비

from datasets import load_dataset
from transformers import AutoTokenizer

# 예시: GLUE CoLA (Corpus of Linguistic Acceptability) 데이터셋
# 문장이 문법적으로 올바른지(1) 아닌지(0) 분류하는 태스크
dataset = load_dataset("glue", "cola")
tokenizer = AutoTokenizer.from_pretrained("klue/bert-base") # 한국어 모델 예시

def tokenize_function(examples):
    # 문장을 토큰화하고 모델 입력 형식에 맞게 변환
    return tokenizer(examples["sentence"], truncation=True)

# 데이터셋의 각 샘플에 대해 토큰화 함수 적용
tokenized_datasets = dataset.map(tokenize_function, batched=True)

# 불필요한 컬럼 제거 및 레이블 컬럼 이름 변경 (모델 학습에 필요)
tokenized_datasets = tokenized_datasets.remove_columns(["sentence", "idx"])
tokenized_datasets = tokenized_datasets.rename_column("label", "labels")

# 학습 데이터셋 형식 설정 (PyTorch 텐서)
tokenized_datasets.set_format("torch")

print("Tokenized Dataset Structure:")
print(tokenized_datasets["train"][0])

`Trainer` API를 활용한 Fine-tuning

Trainer API는 학습 루프, 평가, 로깅, 체크포인트 저장 등 Fine-tuning에 필요한 대부분의 작업을 자동으로 처리해 줍니다.

from transformers import AutoModelForSequenceClassification, TrainingArguments, Trainer
import numpy as np
import evaluate

# 모델 로드
model = AutoModelForSequenceClassification.from_pretrained("klue/bert-base", num_labels=2) # 2개의 클래스 (0 또는 1)

# 학습 인자 설정
training_args = TrainingArguments(
    output_dir="./results",
    learning_rate=2e-5,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    num_train_epochs=3,
    weight_decay=0.01,
    evaluation_strategy="epoch", # 에포크마다 평가
    save_strategy="epoch",       # 에포크마다 모델 저장
    load_best_model_at_end=True, # 학습 종료 시 최적 모델 로드
    metric_for_best_model="accuracy", # 최적 모델 선정 기준
    report_to="none" # 로깅 툴 (wandb, tensorboard) 사용 시 설정
)

# 평가 지표 설정 (CoLA 데이터셋은 Matthew's Correlation Coefficient 사용)
metric = evaluate.load("glue", "cola")

def compute_metrics(eval_pred):
    logits, labels = eval_pred
    predictions = np.argmax(logits, axis=-1)
    return metric.compute(predictions=predictions, references=labels)

# Trainer 인스턴스 생성
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    tokenizer=tokenizer,
    compute_metrics=compute_metrics,
)

# 모델 학습 시작
trainer.train()

# 학습된 모델 평가
eval_results = trainer.evaluate()
print(f"\nEvaluation Results: {eval_results}")

Trainer를 사용하면 복잡한 학습 코드를 직접 작성할 필요 없이, 몇 가지 설정만으로 효율적인 Fine-tuning을 수행할 수 있습니다.

LLM (Large Language Model) 추론 및 Prompt Engineering

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

# 한국어 LLM 예시 (KoGPT2)
# 모델 크기가 크므로 GPU 환경에서 실행하는 것이 좋습니다.
# 모델 로드 시 시간이 다소 소요될 수 있습니다.
model_name = "skt/kogpt2-base-v2" 
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# GPU 사용 설정 (가능하다면)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

# 프롬프트 정의
prompt = "인공지능 기술은 미래 사회에"

# 프롬프트 토큰화
input_ids = tokenizer.encode(prompt, return_tensors="pt").to(device)

# 텍스트 생성
# do_sample=True: 샘플링 기반 생성 (다양한 결과)
# top_k, top_p: 샘플링 전략 제어
# no_repeat_ngram_size: 반복되는 n-gram 방지
# temperature: 생성의 무작위성 조절 (높을수록 무작위)
output_sequences = model.generate(
    input_ids=input_ids,
    max_length=50 + len(input_ids[0]), # 생성할 최대 토큰 수
    temperature=0.7,
    top_k=50,
    top_p=0.95,
    repetition_penalty=1.2,
    do_sample=True,
    num_return_sequences=1,
    pad_token_id=tokenizer.eos_token_id # 패딩 토큰 ID 설정
)

generated_text = tokenizer.decode(output_sequences[0], skip_special_tokens=True)
print(f"\nGenerated Text:\n{generated_text}")

# Prompt Engineering 예시: 역할 부여
prompt_role = "다음은 사용자 질문에 답변하는 친절한 AI 어시스턴트입니다.\n사용자: 오늘 날씨 어때?"
input_ids_role = tokenizer.encode(prompt_role, return_tensors="pt").to(device)
output_sequences_role = model.generate(
    input_ids=input_ids_role,
    max_length=100 + len(input_ids_role[0]),
    temperature=0.8,
    do_sample=True,
    num_return_sequences=1,
    pad_token_id=tokenizer.eos_token_id
)
generated_text_role = tokenizer.decode(output_sequences_role[0], skip_special_tokens=True)
print(f"\nGenerated Text (Role-based Prompt):\n{generated_text_role}")

성능 최적화 및 배포 전략

1. 양자화 (Quantization)

from transformers import AutoModelForCausalLM, BitsAndBytesConfig
import torch

# 4비트 양자화 설정
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16,
    bnb_4bit_use_double_quant=True,
)

# 양자화된 모델 로드 (예: LLM)
# model = AutoModelForCausalLM.from_pretrained(
#     "facebook/opt-125m", # 더 큰 모델에 효과적
#     quantization_config=quantization_config,
#     device_map="auto"
# )
# print(f"Quantized Model Size (bytes): {model.get_memory_footprint()}")

2. ONNX Runtime 변환

from transformers import AutoTokenizer, AutoModelForSequenceClassification
from optimum.onnxruntime import ORTModelForSequenceClassification
from pathlib import Path

model_name = "klue/bert-base"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

# ONNX 모델 저장 경로
onnx_path = Path("./onnx_model")
onnx_path.mkdir(parents=True, exist_ok=True)

# 모델을 ONNX 형식으로 변환 및 저장
# ORTModelForSequenceClassification.from_pretrained(model_name, export=True, export_feature="sequence-classification", output=onnx_path)
# print(f"Model exported to ONNX at: {onnx_path}")

# 저장된 ONNX 모델 로드 및 추론 (예시)
# ort_model = ORTModelForSequenceClassification.from_pretrained(onnx_path)
# inputs = tokenizer("안녕하세요, ONNX 테스트입니다.", return_tensors="pt")
# outputs = ort_model(**inputs)

optimum 라이브러리는 Hugging Face 모델의 최적화 및 배포를 돕는 도구입니다.

3. 배치 추론 (Batch Inference)

4. 캐싱 (Caching)

이러한 최적화 전략들을 통해 Hugging Face Transformers 모델을 더욱 효율적으로 운영하고 실제 서비스에 성공적으로 배포할 수 있습니다.

마무리

#Hugging Face#Transformers#LLM#NLP#Fine-tuning#Python#AI#머신러닝#딥러닝

Hugging Face Transformers: LLM과 NLP 실전 활용 가이드

Hugging Face Transformers: LLM과 NLP 실전 활용 가이드

Hugging Face Transformers: NLP 개발의 혁신

Transformers 설치 및 기본 파이프라인 활용

사전 학습 모델 탐색 및 활용

Custom 데이터셋으로 모델 Fine-tuning

데이터셋 준비

`Trainer` API를 활용한 Fine-tuning

LLM (Large Language Model) 추론 및 Prompt Engineering

성능 최적화 및 배포 전략

1. 양자화 (Quantization)

2. ONNX Runtime 변환

3. 배치 추론 (Batch Inference)

4. 캐싱 (Caching)

마무리

관련 게시글

AI Model Deployment MLOps Pipeline: 개발부터 운영까지

MLOps Pipeline: AI Model Deployment 및 LLM Serving 심층 가이드

RAG Pipeline 구축 완벽 가이드: Retrieval-Augmented Generation 실전 구현

Hugging Face Transformers: LLM과 NLP 실전 활용 가이드

Hugging Face Transformers: LLM과 NLP 실전 활용 가이드

Hugging Face Transformers: NLP 개발의 혁신

Transformers 설치 및 기본 파이프라인 활용

사전 학습 모델 탐색 및 활용

Custom 데이터셋으로 모델 Fine-tuning

데이터셋 준비

`Trainer` API를 활용한 Fine-tuning

LLM (Large Language Model) 추론 및 Prompt Engineering

성능 최적화 및 배포 전략

1. 양자화 (Quantization)

2. ONNX Runtime 변환

3. 배치 추론 (Batch Inference)

4. 캐싱 (Caching)

마무리

관련 게시글

AI Model Deployment MLOps Pipeline: 개발부터 운영까지

MLOps Pipeline: AI Model Deployment 및 LLM Serving 심층 가이드

RAG Pipeline 구축 완벽 가이드: Retrieval-Augmented Generation 실전 구현

Hugging Face Transformers: LLM과 NLP 실전 활용 가이드

Hugging Face Transformers: NLP 개발의 혁신

Transformers 설치 및 기본 파이프라인 활용

사전 학습 모델 탐색 및 활용

Custom 데이터셋으로 모델 Fine-tuning

데이터셋 준비

Trainer API를 활용한 Fine-tuning

LLM (Large Language Model) 추론 및 Prompt Engineering

성능 최적화 및 배포 전략

1. 양자화 (Quantization)

2. ONNX Runtime 변환

3. 배치 추론 (Batch Inference)

4. 캐싱 (Caching)

마무리

관련 게시글

AI Model Deployment MLOps Pipeline: 개발부터 운영까지

MLOps Pipeline: AI Model Deployment 및 LLM Serving 심층 가이드

RAG Pipeline 구축 완벽 가이드: Retrieval-Augmented Generation 실전 구현

Hugging Face Transformers: LLM과 NLP 실전 활용 가이드

Hugging Face Transformers: NLP 개발의 혁신

Transformers 설치 및 기본 파이프라인 활용

사전 학습 모델 탐색 및 활용

Custom 데이터셋으로 모델 Fine-tuning

데이터셋 준비

Trainer API를 활용한 Fine-tuning

LLM (Large Language Model) 추론 및 Prompt Engineering

성능 최적화 및 배포 전략

1. 양자화 (Quantization)

2. ONNX Runtime 변환

3. 배치 추론 (Batch Inference)

4. 캐싱 (Caching)

마무리

관련 게시글

AI Model Deployment MLOps Pipeline: 개발부터 운영까지

MLOps Pipeline: AI Model Deployment 및 LLM Serving 심층 가이드

RAG Pipeline 구축 완벽 가이드: Retrieval-Augmented Generation 실전 구현

`Trainer` API를 활용한 Fine-tuning

`Trainer` API를 활용한 Fine-tuning