AI VIDEO BRIEFING

머신러닝 정규화(Regularization) 직관 — 릿지·라쏘를 베이즈 사전확률로 이해하기

정규화를 릿지·라쏘의 '계수 줄이기'로만 배우면 왜 그렇게 하는지 모른다. 출퇴근 시간 예시와 베이즈 통계의 사전확률로 정규화의 본질과 그 한계를 직관적으로 설명한다.

출처: ritvikmath2026년 2월 2일AI 보조 요약

정규화(Regularization)를 제대로 이해하기 — 릿지·라쏘 이전에 알아야 할 베이즈 직관 영상 대표 이미지

핵심 메시지

많은 사람이 정규화를 '릿지(L2)·라쏘(L1)가 계수를 줄여 과적합을 막는다'는 서사로 배우지만, 정작 '왜 계수를 줄이는 것이 좋은가'라는 근본 질문은 건너뛴다. 이 영상은 릿지·라쏘가 아니라 더 근본적인 개념에서 출발한다.
정규화의 본질은 데이터를 보기 전의 '사전 믿음(prior)'을 닻으로 삼아, 새 데이터를 그 방향으로 끌어당기는 것이다. 그 당기는 힘은 데이터가 적을수록 강하고, 데이터가 많을수록 약해진다.
발표자는 아이스크림 가게 사장과 직원의 출퇴근 시간 예시를 든다. 기존 직원은 약 30분(사전 믿음)이고 신입은 3일간 32·35·65분(폭우로 인한 이상치)을 기록해 평균 44분이 나오는데, 데이터가 3개뿐이니 이를 30분 쪽으로 조금 당기는 것이 자연스럽다는 것이다.
정규화는 만능이 아니다. 신입이 실제로 더 멀리 산다면(참 평균 45분) 데이터를 30분 쪽으로 당기는 것은 오히려 정답에서 멀어진다. 즉 사전 믿음의 분포가 실제와 다르면 양날의 검이 된다.
릿지·라쏘에서 정규화가 하는 일은 '작은 계수가 더 그럴듯하다'는 사전 분포(0 주변에 밀도가 높은 분포)를 계수에 부여하는 것이다. 베이즈 관점은 이 가정을 명시적으로 드러내고, 무엇이 잘못될 수 있는지도 함께 보여 준다.

쉽게 이해하기

발표자는 정규화(regularization)를 자신이 '잘못 배웠다'고 고백하며 시작한다. 많은 사람처럼 선형 회귀의 개선책인 릿지(L2)·라쏘(L1) 맥락에서, 계수의 크기를 줄여 과적합을 막는 기법으로 배웠다는 것이다. 그럴듯하게 들려 몇 년간 의심하지 않았지만, 어느 날 '왜 계수를 줄이는 것이 이로운가', '그렇게 바랄 때 우리는 암묵적으로 어떤 가정을 넣고 있는가'를 다시 묻게 됐다. 그래서 이 영상의 목표는 릿지·라쏘가 아니라 베이즈 통계의 핵심에 있는 근본 개념에서 출발해, 거기서 다시 릿지·라쏘로 돌아오는 것이다.

출발점은 아주 단순한 예시다. 아이스크림 가게 사장은 기존 직원들의 출근 시간이 대략 30분이라고 알고 있다. 새 직원이 들어와 첫 3일의 출근 시간을 보고하는데 32분, 35분, 그리고 도시에 폭우가 내리고 출근길에 나무가 쓰러진 날은 무려 65분이 걸렸다. 세 값의 산술 평균은 44분이지만, 기존 직원이 30분쯤 걸린다는 기대에 비하면 높게 느껴진다. 데이터 점이 셋뿐이고 마지막은 이상치 같으니, 30분이라는 '닻(현재 이해, 사전 믿음)' 쪽으로 추정값을 조금 당기는 것이 자연스럽다.

당기는 정도(크기)는 데이터의 양에 달려 있다. 데이터가 3개뿐일 때와 한 달치 30개일 때는 이야기가 다르다. 데이터가 희소하면 사전 믿음에 더 기대고, 데이터가 많아질수록 사전에서 더 많이 '업데이트'하며 데이터에 더 기댄다. 발표자는 바로 이것이 정규화의 핵심이라고 말한다. 데이터를 보기 전의 사전 믿음을 닻으로 삼아 새 데이터를 그 방향으로 끌어당기되, 데이터가 적으면 강하게, 많으면 약하게 당긴다는 것이다.

다만 정규화는 만능이 아니다. 만약 신입이 실제로 모든 기존 직원보다 멀리 살아 참 평균이 45분이고 데이터가 47·41·44분(평균 44분)이라면, 그대로 쓰면 진실에 거의 맞는다. 그러나 베이즈식으로 데이터가 적다는 이유로 44분을 30분 쪽으로 당기면 오히려 틀린 답이 된다. 즉 새로 모델링하려는 대상의 분포가 사전의 분포와 다를 때, 비록 데이터가 적어도 신뢰할 만하다면 정규화는 해가 될 수 있는 양날의 검이다. 발표자는 이어 사전(prior)·가능도(likelihood)·사후(posterior)라는 이름을 붙이고, 사후가 사전과 데이터 사이의 중간 추정이며 그 비중은 사전에 대한 믿음의 강도와 데이터 양에 달려 있다고 설명한다.

수학적으로는 베이즈 정리로 '모수가 데이터에 대해 가질 확률 ∝ 사전 × 가능도'가 성립한다. 로그를 취하면 사후의 로그는 '사전의 로그 + n개 데이터의 가능도 항들의 합'이 된다. 데이터가 적어 n이 작으면(예: 3) 사전 항 하나가 상대적으로 우세하고, n이 30·90으로 커지면 가능도가 사후의 형태를 지배한다. 이것이 '데이터가 없을 때만 사전에 기대고, 데이터가 다른 이야기를 하면 더는 사전에 매달리지 않는다'는 직관의 수학적 표현이다. 마지막으로 릿지·라쏘로 돌아오면, 둘의 사전 믿음은 '계수(베타)가 0에 가까울수록 더 그럴듯하다'는 것이다. 릿지는 0을 중심으로 한 정규분포처럼 0 주변 밀도가 높고 꼬리가 얇은 사전을 계수에 부여한다(라쏘는 모양이 다르지만 0 주변에 밀도가 몰린 점은 같다). 베이즈 틀은 이 가정을 명시하고 무엇이 잘못될 수 있는지도 드러낸다. 친구가 별 다섯을 준 식당에 가서 내가 별 셋을 느꼈을 때 '한 넷쯤'이라 답하듯, 사람도 실제 경험(데이터)과 사전 믿음을 자연스럽게 평균 내며 사고한다는 비유로 영상은 마무리된다.

주요 인사이트

정규화의 본질은 '계수 줄이기'라는 기법이 아니라, 데이터를 보기 전의 사전 믿음을 닻으로 삼아 데이터를 그 방향으로 당기는 사고방식이다.
당기는 힘의 크기는 데이터 양으로 정해진다. 데이터가 적으면 사전이 사후를 지배하고, 데이터가 많으면 가능도(데이터)가 사후를 지배한다.
정규화는 양날의 검이다. 사전의 분포가 실제 대상과 다르면, 데이터가 적다는 이유만으로 신뢰할 만한 추정을 엉뚱한 쪽으로 끌어당겨 정답에서 멀어질 수 있다.
릿지·라쏘는 '작은 계수가 더 그럴듯하다'는 사전 가정을 계수에 부여하는 것이다. 베이즈 틀은 이 숨은 가정을 명시적으로 드러내 준다.
사전 믿음은 단순한 잡음원이 아니다. 친구의 별점과 내 경험을 평균 내는 식당 평가처럼, 사람의 실제 추론 방식과도 닮아 있다.

자주 묻는 질문

발표자가 정규화를 '잘못 배웠다'고 한 이유는?

릿지·라쏘가 계수를 줄여 과적합을 막는다는 서사로만 배워, 정작 '왜 계수를 줄이는 것이 좋은가', '그렇게 바랄 때 어떤 가정을 암묵적으로 넣는가'라는 근본 질문을 건너뛰었기 때문이다. 그래서 릿지·라쏘가 아니라 베이즈의 근본 개념에서 다시 출발한다.

출퇴근 시간 예시는 정규화를 어떻게 보여 주나?

기존 직원의 약 30분이 사전 믿음(닻)이고, 신입의 3일 기록 32·35·65분(폭우로 인한 이상치)의 평균 44분은 높게 느껴진다. 데이터가 적으니 이 44분을 30분 쪽으로 조금 당기는 것이 자연스럽다는 것이 정규화의 직관이다.

당기는 힘의 강도는 무엇으로 정해지나?

데이터의 양이다. 데이터가 적으면 사전 믿음 쪽으로 강하게 당기고(사전이 우세), 데이터가 많으면 약하게 당겨 데이터(가능도)에 더 기댄다. 베이즈 정리에 로그를 취하면 n이 작을 때 사전 항이, n이 클 때 가능도 항들이 사후를 지배하는 것으로 나타난다.

정규화가 오히려 해가 되는 경우는?

모델링하려는 대상의 실제 분포가 사전의 분포와 다를 때다. 예컨대 신입의 참 평균이 45분인데 데이터가 적다는 이유로 30분 쪽으로 당기면, 신뢰할 만한 데이터를 두고도 추정이 정답에서 멀어진다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗