분류기 (Classifier)

Classifier 분류기 (Classifier)	(2025-01-04)
Classification, Categorization, 분류 범주, 분류 영역, 범주 , 분류 , 분류 , 범주화, 패턴 분류, Classification Clustering, 분류 군집화 비교, 선형 분류기

▷ Top ▷ 정보기술(IT) ▷ 인공지능 ▷ 기계학습 ▷ 분류

1. 분류, 군집화 비교

  ㅇ 분류 (Classification, Categorization)
     - 주어진 데이터를 어떤 부류(분류범주,분류영역,클래스,카테고리)에 속하는지를 판단하는 것
        . 데이터가 미리 정의된 카테고리를 가지고 있음
        . 지도 학습의 대표적인 예

  ㅇ 군집화 (Clustering)
     - 주어진 데이터들을 비슷한 특성별로 모아 (여러 그룹으로 분할하면서) 큰 단위로 만들어 감
        . 데이터의 그룹이 사전에 정의되지 않음
        . 비지도 학습의 대표적인 예

  ※ [참고용어]
     - 집합, 분할, 관계(동치관계,순서관계,함수관계 등), ...


2. 분류기, 분류자 (Classifier), 때론 예측자 (Predictor)

  ㅇ 주어진 패턴을 어떤 부류에 할당시키는 장치/규칙/프로그램/알고리즘/모델
     - 데이터의 특징을 분석하고, 이를 기반으로 특정 카테고리에 속하는지를 예측함

  ㅇ 분류기 사례
     - 例 1) 여러 패턴 중 특정 패턴을 검출(Detection)하는 것
     - 例 2) 수많은 자료 중 질의에 적합한 것을 검색(Retrieval)하는 것
     - 例 3) 개별 패킷별로 중요도 등에 따라 패킷 분류화(Packet Classification)하는 것


3. 분류기의 단계 

  ㅇ 모델 선택 (model selection)  :  우선, 분류기 모델을 선택
  ㅇ 학습 (training)  :  선택된 모델을 학습 데이터로 훈련 
  ㅇ 분류 (classification)  :  학습된 분류기를 통해, 실제 입력 데이터를 분류
  ㅇ 성능 평가 (Performance Evaluation)  :  분류기 성능을 측정 및 평가


4. 분류기의 모델

  ㅇ 분류기를 표현하는 수학적 모델 (다항식 모델)
     - 결정 직선 (1차)  :  단순 선형 분류
        . 이진 분류 문제(정상/비정상,양성/음성 등)를 위해 널리 사용되는 방법 중 하나
     - 결정 곡선 (2차 이상)  :  비선형 분류를 위한 곡선
     - 결정 초평면 (4차원 이상)  : 다차원 공간에서 데이터를 분할

     * 선형 분류기
       - 이진 분류 문제에서 데이터를 두 클래스가 잘 분리될 수 있도록 직선을 찾는 방법
          . 입력 특징을 선형 함수로 변환하여, 그 결과를 기준으로 데이터를 분류
       - 例) 로지스틱 회귀, 선형 SVM 등

  ㅇ 더욱 복잡한 결정 경계를 갖는 분류 방법론
     - SVM (Support Vector Machine, 서포트 벡터 머신)  :  커널 선택으로 결정 경계 설정
        . 커널 (Kernel): 비선형 데이터를 고차원으로 매핑하여 선형적으로 분리 가능하게 만드는 함수
     - 신경망 (Artificial Neutral Network, ANN)  :  신경망의 크기 
        . 퍼셉트론 (선형 분류기)
        . 다층 퍼셉트론 (비선형 분류기)   


5. 분류기의 알고리즘/방법 

  ㅇ 질적 분류기  :  (질적 데이터에 적용)
     - 결정 트리 (Decision Tree) 
        . 계층적 구조로 데이터 분류
     - 스트링 인식기 (String Recognizer)
        . 문자열 패턴을 기반으로 데이터 분류

  ㅇ 양적 분류기  :  (양적 데이터에 적용)
     - 베이시언 분류기 (베이지안 분류기) (Bayesian Classifier)
        . 입력된 데이터의 범주별 사후 확률을 계산하여, 가장 높은 확률의 범주로 분류
     - SVM (Support Vector Machine)
        . 분류 오류율의 최소화가 아닌, 여백 최대화에 중점을 둔 분류법
           .. 한 쪽 레이블(분류 표지, class label)에 치우치지 않고, 
           .. 여백을 최대로 하는 결정 경계를 찾는 이진 분류기
           .. 여백 (Margin) : 결정 경계와 데이터 포인트 간 최소 거리
        . 서포트 벡터 : 결정경계로 부터 가장 가까이에 있는 학습 데이터
     - k-최근접 이웃 알고리즘 (k-Nearest Neighbor, kNN, kNN 알고리즘)
        . 기계학습 알고리즘에서 가장 간단하고 이해하기 쉬움
        . 입력된 데이터가 가장 가까운 k개의 데이터에 따라 분류
     - MLP (Multi Layer Perception, 다층 퍼셉트론)
        . 인공 신경망의 일종
        . 다층 신경망 구조를 사용하여 비선형 데이터 분류
        . 학습 가능한 매개변수로 복잡한 관계를 모델링 가능

▷분류

1. 분류 2. 이진 분류 3. 베이지안 분류
용어해설 종합 (단일 페이지 형태)

"본 웹사이트 내 모든 저작물은 원출처를 밝히는 한 자유롭게 사용(상업화포함) 가능합니다"

[정보통신기술용어해설]

Classifier 분류기 (Classifier)

Classification, Categorization, 분류 범주, 분류 영역, 범주 , 분류 , 분류 , 범주화, 패턴 분류, Classification Clustering, 분류 군집화 비교, 선형 분류기