이제 모의고사 2개를 풀고 2번째 꺼를 2번째 풀때 96% 정도의 점수가 나왔다.
여기 작성하는 개념을 어느정도 계속 읽다보면 암기가 자연스럽게 되면서 문제풀때 더 기억이 잘나는 것 같다.
이번 3번째 개념정리에서는 1,2에서 다루지 않은 좀 더 어려운 개념이 있으면 표로 깔끔하게 정리하는것을 목표로 한다.
기계 학습의 주요 유형에는 **지도 학습(Supervised Learning), 비지도 학습(Unsupervised Learning), 딥 러닝(Deep Learning)**의 세 가지가 있습니다
Underfitting 과 Overfitting 그리고 bias 와 variance 상관관계 외우는방법
언더는 바보 > under 높으면 bias 도 높다. 상관관계이므로 variance는 낮다
오버는 반대니까 variance 가 높고 bias 는 낮다.
모델 상태 Bias (편향) Variance (분산) 특징
Underfitting (과소적합) 높음 낮음 모델이 너무 단순해서 학습을 제대로 못함 (일반화 부족)
Optimal (적절한 학습) 적절 적절 적절한 복잡도의 모델, Bias와 Variance의 균형 유지
Overfitting (과적합) 낮음 높음 모델이 너무 복잡해서 훈련 데이터에 과하게 맞춤 (일반화 부족)
AWS Artifact, AWS Inspector, AWS Config, AWS Audit Manager 차이 비교
서비스주요 기능사용 목적예시
AWS Artifact | ✅ 규정 준수 문서 및 보고서 제공 | - AWS의 보안 및 규정 준수 보고서를 다운로드하고 관리 | - ISO, SOC, HIPAA 등의 규정 준수 증명서 확인 |
AWS Inspector | ✅ 애플리케이션 보안 취약점 스캔 | - EC2, 컨테이너 이미지(ECR) 등에서 보안 취약점 탐지 | - EC2 인스턴스에서 알려진 보안 취약점이 있는지 검사 |
AWS Config | ✅ 리소스 변경 감지 및 규정 준수 모니터링 | - AWS 리소스의 설정 변경을 추적하고 정책 준수 여부를 평가 | - S3 버킷이 암호화되지 않았을 때 알림 전송 |
AWS Audit Manager | ✅ 감사 자동화 및 규정 준수 평가 | - 보안 및 규정 준수를 지속적으로 평가하여 감사 보고서 생성 | - SOC 2 감사 보고서를 자동으로 생성하고 관리 |
, tracks changes in resource configurations >> 나오면 무조건 config
ISO, SOC 나오면 무조건 >> aritfact
보안 취약점 탐지는 >> Inspector감사 보고서 생성 >> Audit Manager
- Artifact → AWS에서 제공하는 규정 준수 문서 및 인증서 다운로드
- Inspector → EC2 및 컨테이너의 보안 취약점 검사
- Config → AWS 리소스의 설정 변경 추적 및 규정 준수 평가
- Audit Manager → 감사 프로세스 자동화 및 보고서 생성
📌 K-Means vs. KNN 차이점 (예시 포함)
알고리즘K-MeansKNN (K-Nearest Neighbors)
학습 방식 | 비지도 학습 (Unsupervised Learning) | 지도 학습 (Supervised Learning) |
목적 | 데이터를 **유사한 그룹(클러스터)**으로 분류 | 새로운 데이터를 **기존 라벨(class)**에 따라 분류 |
작동 방식 | 1. K개의 중심점을 설정하고 데이터를 가장 가까운 중심점에 할당 2. 각 클러스터의 중심점을 다시 조정 3. 이 과정을 수렴할 때까지 반복 |
1. 새로운 데이터 포인트가 들어오면 2. 가장 가까운 K개의 데이터를 찾음 3. 다수결로 해당 데이터를 가장 가까운 클래스로 분류 |
출력 결과 | 클러스터(cluster) 할당 → 데이터가 어떤 그룹에 속하는지 식별 | 클래스(class) 할당 → 데이터가 어떤 기존 라벨에 속하는지 예측 |
데이터 필요 여부 | 라벨이 필요 없음 (비지도) | 라벨이 있는 데이터 필요 (지도) |
예시 | 고객 세분화: 쇼핑몰에서 고객을 구매 패턴에 따라 그룹화 (VIP 고객, 일반 고객 등) | 스팸 이메일 분류: 새로운 이메일이 스팸인지 아닌지, 기존 스팸/비스팸 데이터를 기반으로 판단 |
적용 분야 | 군집 분석, 이상 탐지(Anomaly Detection), 이미지 분할 | 분류(Classification), 추천 시스템, 패턴 인식 |
BedRock에서 커스터마이징하는것 중요!!!
모델 커스터마이제이션은 추가 학습(training)과 가중치(weight) 변경을 통해 모델 성능을 향상시키는 과정이다.
Amazon Bedrock에서는 **지속적 사전 학습(Continued Pre-training) 또는 파인 튜닝(Fine-tuning)**을 사용하여 모델을 커스터마이징할 수 있다.
📌 머신러닝 학습 유형별 주요 기법 정리표
학습 유형기법설명예시
이거 너무 묻는게 많이 나오니 꼭 외우자 ..
지도 학습 (Supervised Learning) | 회귀 (Regression) | 연속적인 숫자 값을 예측하는 모델 | 주택 가격 예측, 주식 시장 가격 예측 |
분류 (Classification) | 데이터를 특정 카테고리로 분류 | 스팸 메일 탐지, 질병 진단 | |
의사결정 트리 (Decision Tree) | 데이터를 기준에 따라 트리 형태로 분류 | 고객이 대출을 받을 수 있는지 예측 | |
신경망 (Neural Network) | 다층 퍼셉트론 구조로 복잡한 패턴을 학습 | 음성 인식, 이미지 분류 (고양이 vs 강아지) | |
감성 분석 (Sentiment Analysis) | 텍스트의 감정을 분석하여 긍정/부정/중립 분류 | 상품 리뷰의 긍정/부정 분석 | |
비지도 학습 (Unsupervised Learning) | 군집화 (Clustering) | 비슷한 속성을 가진 데이터를 그룹화 | 고객 유형 분류, 뉴스 기사 자동 분류 |
차원 축소 (Dimensionality Reduction) | 데이터의 특성 수를 줄여서 분석을 쉽게 함 | 이미지 압축, 유전자 데이터 분석 | |
연관 규칙 학습 (Association Rule Learning) | 데이터 간의 연관성을 찾아 규칙을 도출 | 장바구니 분석 (맥주를 사는 고객은 감자칩도 구매) | |
확률 밀도 추정 (Probability Density Estimation) | 데이터의 분포를 모델링하여 확률 값을 계산 | 이상 탐지(거래 사기 탐지), 신용 카드 부정 사용 탐지 | |
생성 모델 (Generative Model) | 새로운 데이터를 생성하는 모델 | 딥페이크, 텍스트 생성 (GPT) | |
자기 지도 학습 (Self-Supervised Learning) | 사전 학습 (Pre-training) | 레이블 없이 데이터의 일부를 예측하는 방식으로 학습 | GPT, BERT (자연어 처리) |
대조 학습 (Contrastive Learning) | 데이터 간의 유사성과 차이를 학습하여 표현 학습 수행 | 이미지 검색, 얼굴 인식 (SimCLR, MoCo) | |
오토인코더 (Autoencoder) | 입력 데이터를 압축하고 다시 복원하는 방식으로 특징 학습 | 노이즈 제거, 이미지 생성 |
🧠 암기법
👉 지도 학습: 정답이 있음 → 예측과 분류 (EX: 가격 예측, 스팸 탐지)
👉 비지도 학습: 정답이 없음 → 그룹화와 패턴 찾기 (EX: 고객 분류, 차원 축소)
👉 자기 지도 학습: 레이블 없이 스스로 학습 → 특징 학습 및 사전 학습 (EX: GPT, 얼굴 인식)
분류시스템 성능측정 지표 3가지
정밀도(Precision), 재현율(Recall), F1-점수(F1-Score)
정밀도(Precision), 재현율(Recall), 그리고 F1-점수(F1-Score)는 분류 시스템의 성능을 평가하는 표준 지표입니다.
매번나오는 트레이닝, Validation, Test 세트에 대하여
훈련 세트(Training Set), 검증 세트(Validation Set), 테스트 세트(Test Set)
머신러닝에서 데이터를 효과적으로 활용하기 위해 일반적으로 다음과 같이 데이터를 분할합니다.
- 훈련 세트(Training Set)
- 알고리즘 또는 머신러닝 모델을 학습시키는 데 사용됩니다.
- 모델은 이 데이터를 반복적으로 사용하여 원하는 결과를 예측하는 방법을 학습합니다.
- 검증 세트(Validation Set) (선택적)
- 훈련된 모델에 새로운 데이터를 적용하여 성능을 주기적으로 측정합니다.
- 모델 학습 과정에서 하이퍼파라미터를 조정하고 최적의 모델을 선택하는 데 사용됩니다.
- 검증 세트는 선택적이며, 일부 경우 교차 검증(Cross Validation) 기법이 사용될 수도 있습니다.
- 테스트 세트(Test Set)
- 최종적으로 학습이 완료된 모델을 검증하기 위해 사용됩니다.
- 모델이 완전히 새로운 데이터에서 얼마나 잘 작동하는지 평가하여 일반화 성능을 측정합니다.
📌 하이퍼파라미터 vs 모델 파라미터
구분설명예시
하이퍼파라미터 | 모델이 학습하기 전에 사람이 직접 설정하는 값 | 학습률(learning rate), 배치 크기(batch size), 은닉층(hidden layers) 개수 |
모델 파라미터 | 모델이 학습을 통해 자동으로 조정하는 값 | 가중치(weight), 편향(bias) |
RLHF 와 A2I 차이
📌 차이점 정리
구분RLHF (인간 피드백을 활용한 강화 학습)A2I (Amazon Augmented AI)
개념 | 인간의 피드백을 활용하여 AI 모델을 학습시키는 강화 학습 기법 | AWS 서비스로, 머신러닝 모델의 예측 결과를 인간이 검토할 수 있도록 지원 |
목적 | AI 모델이 인간의 목표 및 선호도를 더 잘 반영하도록 최적화 | 모델이 생성한 예측 결과의 정확성과 신뢰성을 향상 |
활용 사례 | ChatGPT, 생성형 AI(GPT, DALL·E) | 의료 영상 분석, 보험 청구 심사, 콘텐츠 검토 |
보상 설계 방식 | 인간의 피드백을 강화 학습의 보상 함수로 반영 | AI 예측 결과를 검토하고 오류를 수정 |
👉 정리하자면:
- RLHF는 AI의 학습 과정에 인간 피드백을 추가하여 모델 성능을 개선하는 머신러닝 기법.
- A2I는 AWS의 서비스로, AI 모델이 예측한 결과를 사람이 직접 검토할 수 있도록 지원하는 기능.
둘 다 인간의 개입을 활용하지만, RLHF는 학습 과정에, A2I는 결과 검토 과정에 적용된다는 차이가 있습니다! 😊
'ETC > AI' 카테고리의 다른 글
AWS Certified AI Practitioner 개념정리 -1 (1) | 2025.02.02 |
---|