Post

인공지능(AI), 머신러닝, 딥러닝 개념

1. 인공지능, 머신러닝, 딥러닝 개념

image

인공지능(Artificial Intelligence)

  • 인간의 지능을 모방하는 기술을 총칭하며, 3가지 개념 중 가장 큰 범위를 가집니다.

머신러닝(Machine Learning)

  • 인공지능을 구현하는 방법론 중 하나입니다.
  • 컴퓨터가 데이터로부터 패턴을 학습하여, 명시적인 프로그래밍이 없이 어떤 예측이나 분류 작업을 수행하는 것을 말합니다.
  • 이를 위해 의사결정 트리나 인공 신경망 같은 다양한 머신러닝 모델(Machine learning models)이 사용됩니다.
  • 이러한 머신러닝 모델은 내재된 알고리즘을 통해 훈련 데이터(Training Data)를 학습하여, 새로운 데이터에 관한 결과를 도출하게 됩니다.

딥 러닝(Deep Learning)

  • 딥러닝은 머신러닝의 한 종류입니다.
  • 딥러닝은 인공 신경망을 기반으로 한 심층 학습 기술로서 전통적인 머신러닝 기법에 비해 대규모의 데이터를 처리할 수 있습니다.
  • 이미지 인식, 음성 인식, 자연어 처리 등에서 널리 사용되고 있습니다.




2. 머신러닝 분류와 유형

2-1. 지도 학습(Supervised Learning)

지도 학습은 레이블(Label)이 있는 훈련 데이터를 사용하여 모델을 학습시키는 방법입니다. 즉, 입력 데이터와 그에 해당하는 정답(레이블)을 머신러닝 모델에 제공하여, 입력 데이터와 정답 간의 관계를 학습시키는 것입니다. 이렇게 학습된 모델은 새로운 데이터에 대해 정답을 예측할 수 있게 됩니다.

image

지도 학습에서 다루는 문제 유형으로는 분류(Classification)와 회귀(Regression)가 있습니다.

분류(Classification)

  • 입력 데이터를 미리 정의된 범주 중 하나로 분류하는 것
  • 예: 이미지 분류, 스팸 메일 탐지

회귀(Regression)

  • 연속적인 값을 예측
  • 예: 주식이나 주택 가격 예측

2-2. 비지도 학습(Unsupervised Learning)

비지도 학습은 레이블이 없는 데이터를 사용하여 데이터에 내재된 구조나 패턴을 발견하는 방법입니다. 비지도 학습에서는 알고리즘이 스스로 데이터의 특성을 파악하고, 유의미한 그룹이나 표현을 찾아냅니다. 비지도 학습에서 다루는 문제 유형으로는 클러스터링(Clustering)과 차원 축소(Dimensionality Reduction) 등이 있습니다.

클러스터링(Clustering)
비지도 학습의 주요 문제 유형이자, 기법의 하나로서 유사한 특성을 가진 데이터들을 그룹화하는 것입니다.

image

2-3. 강화 학습(Reinforcement Learning)

image

강화 학습은 에이전트(Agent)가 환경(Environment)과 상호작용 하면서 보상(Reward)을 최대화하는 방향으로 학습하는 머신러닝 기법을 말합니다.

  • 에이전트(Agent): 행동을 수행하는 주체(인공지능)
  • 환경(Environment): 에이전트가 풀어야하는 문제

에이전트의 행동에 따라서 환경이 변하게 되는데 그 변화를 에이전트에게 알려줍니다. 상태변화가 목표하는 바와 가까워 지면 에이전트는 보상을 받게되며 이를 통해 학습의 방향을 잡게 됩니다.




3. 머신러닝 개발 프로세스

머신러닝 개발 프로세스는 일반적으로 1) 데이터 수집과 전처리, 2) 모델 선택 및 학습, 3) 모델 평가 및 검증, 4) 모델 배포와 유지보수의 단계 로 이루어집니다.

먼저 해결하고자 하는 문제를 명확히 정의하고, 문제 해결에 필요한 데이터를 수집하고 전처리합니다.

이후 데이터 특성에 맞는 머신러닝 알고리즘을 선택하고 학습시킨 후, 학습된 모델의 성능을 평가하고 검증합니다.

최종적으로 검증된 모델을 실제 환경에 배포하고 유지 보수하는 과정을 거치게 됩니다.

image

3-1. 데이터 수집과 전처리

머신러닝 프로젝트는 문제 정의가 완료된 후 데이터 수집 및 전처리 단계로 시작합니다.

데이터는 다양한 소스로부터 수집될 수 있으며, 이렇게 수집된 데이터는 해결하고자 하는 문제를 풀 수 있도록 정제합니다.

이처럼 데이터를 정제하는 것을 데이터 전처리(Data Preprocessing)라고 합니다.

이 과정에서는 데이터를 학습 데이터(Training Data)와 검증 데이터(Validation Data), 테스트 데이터(Test Data) 등으로 분할하고, 결측값 처리, 이상치 제거, 특징 스케일링, 데이터 정규화 및 증강 등의 작업을 수행하게 됩니다.

image

3-2. 모델 선택 및 학습

데이터 수집과 전처리가 완료되면 이제 적절한 머신러닝 알고리즘을 선택해야 합니다. 머신러닝 알고리즘에는 선형 회귀(Linear Regression), 로지스틱 회귀(Logistic Regression), 의사결정 트리(Decision Tree), 서포트 벡터 머신(SVM), 합성곱 신경망(CNN) 등 다양한 알고리즘이 있습니다.

이제 선택된 알고리즘을 학습 데이터로 학습시켜 모델을 생성합니다.

이 단계에서는 하이퍼파라미터 조정을 통해 모델의 성능을 최적화하는 작업을 하게 됩니다.

참고로 여기서 하이퍼파라미터(Hyperparmeter)란 모델의 구조나 학습 과정을 제어하는 각종 변수들을 의미합니다.

image

3-3. 모델 평가 및 검증

머신러닝 모델 학습이 완료되면, 이제 모델의 성능을 평가하고 검증하는 단계를 거치게 됩니다.

분류 문제의 경우에는 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1 스코어 등의 평가 지표를 사용하고, 회귀 문제의 경우 평균 제곱 오차(Mean Squared Error), 평균 절대 오차(Mean Absolute Error), R 제곱(R-squared) 등의 지표를 사용하여 모델을 평가합니다.

image

또한 교차 검증(Cross-Validation)을 통해 모델의 안정성과 일반화 능력을 평가하며, 이러한 모델 평가 결과를 바탕으로 점진적으로 모델을 개선하고 재학습하는 과정을 반복합니다.

3-4. 모델 배포 및 유지보수

머신러닝 개발 프로세스의 마지막 단계는 검증된 모델을 실제 환경에 배포하고 운영하는 단계입니다.

배포 단계에서는 머신러닝 모델을 웹 서비스나 소프트웨어 프로덕트에 통합하고 실시간 및 배치 처리를 수행합니다.

모델 배포 후에는 모델의 성능을 지속적으로 모니터링하고, 새로운 데이터에 대한 예측 품질을 관리합니다. 이후 필요에 따라 데이터 수집 및 전처리 작업과 학습을 다시 진행하면서 모델을 업데이트하게 됩니다.




📑 참고 자료

‘머신러닝’ 기초 지식 톺아보기

[09] 머신러닝의 종류와 특징 - 지도학습, 비지도학습, 강화학습

This post is licensed under CC BY 4.0 by the author.