반응형
드디어 마지막 기출풀이 정리
전체적으로 올바르게 예측한 비율 - 정확도 Accuracy > Overall Percentage 라는 단어가 나오면
F1 Score는 클래스 불균형 문제가 중요할 때 더 적합한 지표
정답: "Large Language Models (LLMs) are non-deterministic."
✅ 대규모 언어 모델(LLMs)은 비결정론적(Non-Deterministic)입니다.
비결정론적(Non-Deterministic)이란?
- 같은 입력을 여러 번 주더라도 항상 동일한 출력이 보장되지 않는 특성을 의미합니다.
- LLM은 확률적 생성 모델(Probabilistic Generative Model) 로 동작하며, 출력은 모델이 훈련된 확률 분포를 기반으로 샘플링(Sampling)됩니다.
- 즉, 동일한 질문을 입력하더라도 다른 답변이 생성될 가능성이 있음.
이유 1: LLM의 작동 방식 – 확률적 샘플링(Sampling) 기법 사용
- LLM은 문장을 생성할 때, 각 단어(또는 토큰)의 다음 단어를 예측하는 확률적 모델입니다.
- 온도(Temperature) 및 토큰 샘플링 방식(Top-k, Top-p 등)에 따라 결과가 달라질 수 있음.
- 예를 들어, "What is the capital of France?"를 여러 번 입력하면 "Paris"가 가장 높은 확률이지만, 다른 변형된 응답(예: "The capital is Paris.")이 나올 수도 있음.
이유 1: Multi-Class vs. Multi-Label 분류의 핵심 차이점
분류 방식설명예시 (미디어 콘텐츠 분류)
Multi-Class Classification | 각 데이터 인스턴스는 하나의 클래스에만 속함 | 영화가 "코미디", "드라마", "액션" 중 하나로만 분류됨 |
Multi-Label Classification | 각 데이터 인스턴스는 여러 클래스에 동시에 속할 수 있음 | 한 영화가 "액션"과 "SF" 동시에 포함될 수 있음 |
정답: "NONE" (필수 매개변수 없음)
✅ Amazon SageMaker Automatic Model Tuning (AMT)에서는 특정 매개변수가 반드시 필수(Mandatory)로 요구되지 않으며, 기본적으로 선택적(Optional)입니다.
정답: "The company should use a Generative Adversarial Network (GAN) for creating realistic synthetic data while preserving the statistical properties of the original data."
✅ GAN(Generative Adversarial Network)은 원본 데이터의 통계적 특성을 유지하면서도 실제와 유사한 합성 데이터를 생성하는 데 적합한 기법입니다.
이유 1: GAN은 고품질의 합성 데이터를 생성할 수 있음
- GAN은 두 개의 신경망(Generator & Discriminator)이 경쟁하며 점점 더 현실적인 데이터를 생성하는 방식으로 작동합니다.
- 의료 데이터와 같은 복잡한 패턴을 포함하는 데이터셋에서도 원본과 유사한 합성 데이터를 만들 수 있음.
- 이를 통해 모델 훈련에 활용할 수 있는 고품질의 가짜 환자 데이터를 생성 가능.
이유 2: 데이터 프라이버시 보호에 유리함
- 원본 데이터에서 직접 샘플링하지 않고 새로운 데이터를 생성하므로 환자의 개인정보 보호에 효과적.
- GDPR, HIPAA 같은 의료 데이터 보호 규정을 준수하면서도 연구 및 AI 모델 개발을 가능하게 함.
- 실제 환자의 정보를 사용하지 않고도 실제 데이터의 통계적 특성을 유지하는 모델 훈련이 가능.
human input at key stages > 사람이 중요한 단계에 개입하고 싶어한다 > Human in the Loop
정답: SageMaker Ground Truth
정답: Amazon Comprehend
Amazon Comprehend는 자연어 처리(NLP) 서비스로, 개인 식별 정보(PII, Personally Identifiable Information)를 자동으로 감지하고 마스킹(익명화)할 수 있기 때문에 적합한 답변입니다.
텍스트에서 PII 감지 가능!! 개인 식별 정보!!
input feature 신경쓰는게 SageMaker Clarify 이고
사람이 입력할때 신경써주는게 SageMaker Ground Truth 임
합격할수있겠지?ㅎㅎ
반응형