AI VIDEO BRIEFING

맥락적 밴딧(Contextual Bandits)이란? 멀티암드 밴딧과의 차이와 개인화 추천 원리

멀티암드 밴딧이 모두에게 똑같은 선택을 강요한다면, 맥락적 밴딧은 각자의 맥락 정보를 활용해 개인 맞춤 결정을 내린다. 100명의 학생 수업 계획 예시로 두 방법의 차이와 개인화의 원리, 그리고 운영 부담이라는 비용까지 쉽게 풀어 설명한다.

출처: ritvikmath2025년 4월 28일AI 보조 요약

모두에게 같은 정답은 없다 — '맥락적 밴딧'으로 한 명 한 명에게 맞추는 법 영상 대표 이미지

핵심 메시지

멀티암드 밴딧은 탐색(exploration)과 활용(exploitation)을 균형 있게 오가며 전체에 가장 좋은 하나의 선택지를 찾는다.
맥락적 밴딧은 각 대상이 가진 '맥락(context) 벡터'를 활용해 대상마다 다른 행동을 선택한다.
보상을 예측하는 모델은 선형 회귀처럼 단순할 수도, 딥러닝처럼 복잡할 수도 있다.
개인화는 성능을 끌어올리지만, 운영 부담이 늘고 안정화에 더 오랜 시간이 걸린다는 비용이 따른다.

쉽게 이해하기

영상은 수학 교수가 100명의 학생에게 어떤 수업 방식이 더 좋은지 정하는 상황으로 시작한다. '직관 먼저' 방식과 '수학 먼저' 방식 중 매일 보는 퀴즈 점수로 더 나은 쪽을 가린다. 처음에는 멀티암드 밴딧의 엡실론-그리디 전략을 쓴다. 10% 확률로 무작위로 한 방식을 골라 탐색하고, 90% 확률로 그동안 평균 점수가 높았던 방식을 활용하는 식이다.

며칠만 돌려보면 직관 먼저 방식이 약 80%, 수학 먼저 방식이 약 60%라는 결과가 나온다. 그러나 발표자는 잠들기 직전 의문을 던진다. 100명의 학생은 저마다 배경과 관점이 다른데, 왜 모두에게 똑같은 하나의 방식을 강요해야 하느냐는 것이다. 여기서 '맥락에 따른 개인화'라는 발상이 등장한다.

맥락적 밴딧은 각 학생에 대한 정보 벡터(GPA, 수강 학점, 이전 수학·직관 기반 과목 성적 등)를 활용한다. 학생 절반에게는 수학 먼저, 나머지 절반에게는 직관 먼저 방식을 주고 같은 퀴즈를 보게 한 뒤, 학생의 맥락 벡터와 어떤 방식을 받았는지(이진 변수), 그리고 퀴즈 점수를 묶어 선형 회귀 모델을 학습시킨다.

다음 날부터는 학생마다 엡실론-그리디를 적용한다. 10% 확률로는 무작위 배정, 90% 확률로는 그 학생의 맥락에서 더 높은 점수가 예상되는 방식을 골라준다. 같은 학생에 대해 두 방식의 예측 점수를 모두 계산하고 더 높은 쪽을 택하는 것이다. 매일 데이터를 모아 모델을 다시 학습하는 과정을 반복한다.

이렇게 몇 주를 돌리자 전체 평균 정답률이 90%에 이르렀다. 단순 멀티암드 밴딧보다 10%포인트 높은 결과로, 각 학생의 맥락에 행동을 맞춘 덕분이다. 다만 발표자는 마지막에 비용도 분명히 짚는다.

주요 인사이트

핵심 차이는 '전체에 통하는 한 가지 전략'이냐 '각 대상의 맥락에 맞춘 전략'이냐에 있다. 맥락적 밴딧의 힘은 개별 맥락을 존중하는 데서 나온다.
보상 추정 방법은 자유롭게 선택할 수 있다. 영상은 단순함을 위해 선형 회귀를 썼지만, 더 복잡한 모델로 바꿔도 전체 구조는 동일하다.
개인화에는 현실적 대가가 따른다. 학급을 나누고 다른 수업을 동시에 진행하려면 추가 인력·운영이 필요해 멀티암드 밴딧보다 손이 많이 간다.
맞춰야 할 변수와 파라미터가 많아지는 만큼, 맥락적 밴딧은 결과가 안정화되기까지 더 많은 데이터와 더 긴 시간이 필요하다.

자주 묻는 질문

멀티암드 밴딧과 맥락적 밴딧의 가장 큰 차이는 무엇인가요?

멀티암드 밴딧은 평균 보상이 가장 좋은 하나의 선택지를 전체에 똑같이 적용합니다. 맥락적 밴딧은 각 대상의 맥락 벡터를 활용해 대상마다 서로 다른 행동을 선택한다는 점이 다릅니다.

엡실론-그리디 전략에서 엡실론 10%는 무슨 뜻인가요?

어떤 날이든 10% 확률로는 두 선택지 중 하나를 무작위(50대 50)로 골라 탐색하고, 나머지 90% 확률로는 그동안 평균 점수가 가장 좋았던 선택지를 활용한다는 의미입니다.

맥락적 밴딧에서 보상은 어떻게 예측하나요?

학생의 맥락 벡터와 어떤 방식을 받았는지를 묶은 입력으로 모델을 학습시켜 퀴즈 점수를 예측합니다. 영상에서는 선형 회귀를 썼지만 딥러닝 등 더 복잡한 모델로 대체할 수 있습니다.

맥락적 밴딧의 단점은 무엇인가요?

학급을 나눠 운영해야 해 logistical 부담이 크고, 맞춰야 할 변수와 파라미터가 많아 결과가 안정화되기까지 단순 밴딧보다 더 오래 걸립니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗