1. LLM (Large Language Model, 대규모 언어 모델)
ㅇ 방대한 텍스트 데이터를 학습하여,
- 인간의 언어를 이해하고 생성하는 인공지능 모델
ㅇ 핵심 특징
- 대규모 학습 (Large-scale Training)
. 수십억 ~ 수조 단어 수준 데이터로 학습
- 확률 기반 예측
. 다음에 올 단어(토큰)를 확률적으로 예측
- 문맥 이해 (Context Awareness)
. 앞뒤 문장을 고려하여 의미를 파악
- 생성 능력 (Generation)
. 질문 답변, 요약, 번역, 코드 생성 등 수행
ㅇ 기본 원리
- 언어 모델 (Language Model)
. 문장의 확률을 모델링 : P(문장) = P(w1,w2,...,wn)
- 자기회귀 구조 (Autoregressive)
. 이전 단어를 기반으로 다음 단어 생성
- Transformer 기반
. Attention 메커니즘으로 단어 간 관계 학습
ㅇ 주요 구성 요소
- 토큰 (Token)
. 문장을 쪼갠 최소 단위 (단어/부분문자)
- 임베딩 (Embedding)
. 단어를 벡터로 변환
- 어텐션 (Attention)
. 중요한 단어에 가중치를 두는 메커니즘
ㅇ 활용 분야
- 자연어 처리 (NLP) : 번역, 요약, 질의응답
- 코드 생성 : 프로그래밍 자동화
- 대화형 AI : 챗봇, 가상 비서
ㅇ 한계
- 환각 (Hallucination) : 사실이 아닌 내용을 생성
- 데이터 편향 : 학습 데이터에 의존
- 계산 비용 : 학습/추론에 큰 자원 필요