NLP   Natural Language Processing   자연어 처리

(2026-05-28)

1. 자연어 처리 (NLP, Natural Language Processing) 이란?컴퓨터인간자연어를 이해하고 해석하며 생성하는 기술
     - 자연어를 정제하고 수치화해서,
     - 컴퓨터가 요약,분류,번역,문장생성,질의응답 등을 할 수 있게 함


2. 자연어 처리 응용 검색 엔진  :  방대한 문서 집합에서 관련성을 계산해 가장 적합한 결과를 순위화해 반환
  ㅇ 문장 분류 (텍스트 분류)  :  문서를 주제나 감정 등으로 분류
  ㅇ 개체인식  :  사람, 장소 등 고유명사 식별
  ㅇ 언어 번역 (기계 번역)  :  한 언어텍스트를 다른 언어로 번역
  ㅇ 문서 요약 (텍스트 요약)  :  긴 문서를 핵심 내용 중심으로 축약하는 기술
  ㅇ 질문 응답 (QA)  :  주어진 질문에 대해 관련된 정보텍스트에서 추출하여 답변
  ㅇ 감정 분석  :  텍스트에서 감정(긍정/중립/부정)을 분석
  ㅇ 대화형 AI (Chatbots, 챗봇)  :  사용자의 질문에 대해 자연스러운 대화를 이어감


3. 자연어 처리 기본 접근

  ㅇ 사용자가 원하는 정보효율적으로 탐색하기 위함
     - 검색 (Search), 정렬 (Ranking), 검색어 사전 구축 (Query Construction), 색인 (Indexing),
       교정, 추천 등

  ㅇ 텍스트 전처리  :  원본 텍스트의 정제 및 변환
     - 노이즈,불일치 제거, 구두점 제거, 불용어 제거, 어간 추출, 표제어 추출 등
        . 데이터 정규화 : 소문자 변환, 구두점 제거, 데이터 형식 표준화 등
        . 데이터 정제 : 오타 수정, 이상치 제거, 누락된 값 제거 등
        . 불용어 제거 : 데이터 차원을 줄임
        . 어간 추출 (stemming) : 어근에 가까운 기본 형태로 단순화(단어 축소)
        . 표제어 추출 (lemmatization) : 형태학적 분석을 통한 기본형/사전형 표제어 찾아냄
           .. 사전 기반으로 기본형 복원
        

4. 자연어 처리 모델자연어 처리 모델 이란?
     - 입력(자연어)이 특정 범주일 확률을 반환하는 함수
        . 입력(자연어) 특성과 작업 목적(감성 분석 등)에 따라 최적이라고 판단되는 것을 선택 

  ㅇ 전통적인 NLP 모델
     - 규칙 기반 NLP (Rule-based NLP)
        . 언어학적 규칙을 사람이 직접 설계
        . 형태소 규칙, 문법 규칙, 패턴 매칭 등
        . 단점 : 확장성 낮음, 언어 변화에 취약
        . 대표 모델 : 정규표현식, 문법 트리 규칙, 전문가 시스템 등
     - 통계적 / 확률적 NLP 모델
        . 언어확률 과정으로 모델링
        . 관측 변수와 은닉 상태의 관계 정의
        . 비교적 수학적으로 해석 가능
        . 대표 모델 : Hidden Markov Models (HMM), n-gram Language Model 등
     - 전통적 기계학습 기반 NLP 모델
        . 특징을 사람이 설계하는 방식
        . 대표 모델 : Naive Bayes, Logistic Regression, Support Vector Machine (SVM) 등

  ㅇ 딥러닝 기반 NLP 모델
     - 신경망 기반 표현 학습
        . 대표 모델 : Word Embedding, Word2Vec, GloVe, FastText 등
     - 순환/합성 신경망 기반
        . 장점 : 순서 정보 반영
        . 한계 : 장거리 의존성 및 병렬 처리에 어려움
        . 대표 모델 : RNN, LSTM, GRU 등
     - Transformer 기반 모델 (현재 주류)
        . Self-Attention
        . 병렬 처리 가능
        . 장거리 문맥 학습에 강함
        . 대표 모델 : Transformer 구조 (BERT, GPT)
        . BERT (Bidirectional Encoder Representations from Transformers)
           .. 양방향 문맥 인코딩
           .. 이해(분류,질문응답) 중심
        . GPT (Generative Pre-trained Transformer)
           .. 단방향(자기회귀) 생성 모델
           .. 확률적 다음 토큰 예측

     * 딥러닝 기반 NLP의 특징
        . 대규모 데이터 기반 사전학습 (Pre-training)
        . 미세조정 (Fine-tuning)
        . 명시적 규칙, 사전 불필요
        . 의미 관계를 분산 표현으로 내재화

LLM, NLP
1. 자연어 처리 (NLP)   2. 자연어 처리 용어   3. N-gram   4. 편집 거리   5. 언어 모델   6. 대규모 언어 모델 (LLM)   7. 임베딩   8. 어텐션   9. 트랜스포머   10. 토큰화  
용어해설 종합 (단일 페이지 형태)

"본 웹사이트 내 모든 저작물은 원출처를 밝히는 한 자유롭게 사용(상업화포함) 가능합니다"
     [정보통신기술용어해설]