LogoConvertize
홈가이드도구
LogoConvertize
홈가이드도구
블로그로
A/B 테스트

A/B 테스트 샘플 크기: 필요한 양 계산하는 방법

A/B 테스트를 위한 샘플 크기 계산을 마스터하세요. 공식을 배우고, 실제 예시를 활용하며, 흔한 함정을 피하세요.

A/B 테스트 샘플 크기: 필요한 양 계산하는 방법
C
Convertize Team
2025년 1월 8일12분

샘플 크기가 A/B 테스트의 성패를 가른다

동전을 두 번 던져서 앞면이 연속으로 나왔다고 상상해보세요. 이 동전이 앞면으로 편향되어 있다고 결론 내릴 수 있을까요? 당연히 아닙니다. 너무 적은 시도로는 어떤 결론도 내릴 수 없습니다.

A/B 테스트도 마찬가지입니다. 충분한 샘플 없이 진행된 테스트 결과는 동전 두 번 던지기와 다를 바 없습니다. 그래서 테스트 시작 전에 필요한 샘플 크기를 정확히 계산하는 것이 중요합니다.

샘플 크기 계산에 필요한 핵심 개념

본격적인 계산에 들어가기 전에, 반드시 이해해야 할 네 가지 개념이 있습니다.

통계적 유의성

통계적 유의성은 테스트 결과가 우연이 아닐 확률을 나타냅니다. 업계 표준은 95%입니다. 이는 실제로 두 버전 간 차이가 없는데도 차이가 있다고 잘못 판단할 확률이 5%라는 의미입니다.

왜 100%가 아니냐고요? 100%에 가까워질수록 필요한 샘플 크기가 천문학적으로 증가하기 때문입니다. 95%는 실용성과 정확성 사이의 균형점입니다.

통계적 검정력

검정력은 실제로 차이가 있을 때 그것을 발견할 확률입니다. 업계 표준은 80%입니다. 다시 말해, 진짜 개선이 있을 때 그것을 놓칠 확률이 20%라는 뜻입니다.

"80%면 너무 낮은 거 아닌가요?"라고 생각할 수 있습니다. 하지만 90%나 95%로 높이면 필요한 샘플 크기가 크게 증가합니다. 대부분의 비즈니스 상황에서 80%는 합리적인 선택입니다.

최소 감지 효과(MDE)

MDE는 여러분이 발견할 가치가 있다고 생각하는 최소한의 개선 폭입니다. 이 숫자는 비즈니스 맥락에 따라 결정됩니다.

만약 전환율 3%를 4%로 올리는 것(33% 상대적 개선)이 연간 수억 원의 매출 증가를 의미한다면, 그 정도의 변화를 감지하는 것이 중요합니다. 반면 작은 사이드 프로젝트라면 50% 이상의 큰 변화만 감지해도 충분할 수 있습니다.

핵심 원칙: 작은 MDE를 설정할수록 더 많은 샘플이 필요합니다.

기준 전환율

현재 전환율은 샘플 크기 계산의 출발점입니다. 이 숫자가 정확해야 계산 결과도 의미가 있습니다. 테스트 전 최소 2-4주간의 데이터로 현재 전환율을 정확히 측정하세요.

샘플 크기 계산 공식

95% 신뢰 수준과 80% 검정력을 기준으로 양측 검정을 할 때, 각 버전에 필요한 샘플 크기는 다음과 같이 계산합니다.

n = 2 x ((1.96 + 0.84)의 제곱 x p x (1-p)) / MDE의 제곱

여기서 p는 기준 전환율, MDE는 절대적 최소 감지 효과입니다.

수학이 복잡하게 느껴진다면, 다음의 간소화된 공식을 사용해도 됩니다.

n = 16 x p x (1-p) / MDE의 제곱

이 공식이 어떻게 적용되는지 실제 예시로 살펴보겠습니다.

실제 비즈니스 시나리오별 계산 예시

이커머스 결제 페이지 최적화

한 온라인 쇼핑몰의 결제 완료율이 3%입니다. 결제 페이지를 개선하여 최소 15%의 상대적 개선(즉, 3%에서 3.45%로)을 감지하고 싶습니다.

계산 과정:

  • 기준 전환율(p): 0.03
  • 절대적 MDE: 0.03 x 0.15 = 0.0045
  • n = 16 x 0.03 x 0.97 / (0.0045의 제곱)
  • n = 약 23,000명 (버전당)

결론: 총 46,000명의 방문자가 필요합니다. 일일 방문자가 2,000명이라면 약 23일이 소요됩니다.

SaaS 무료 체험 전환 개선

B2B SaaS 기업의 무료 체험 시작 전환율이 8%입니다. 랜딩 페이지 변경으로 20% 상대적 개선(8%에서 9.6%로)을 목표로 합니다.

계산 과정:

  • 기준 전환율(p): 0.08
  • 절대적 MDE: 0.08 x 0.20 = 0.016
  • n = 16 x 0.08 x 0.92 / (0.016의 제곱)
  • n = 약 4,600명 (버전당)

결론: 총 9,200명의 방문자가 필요합니다. 상대적으로 적은 트래픽으로도 테스트가 가능합니다.

뉴스레터 구독 최적화

콘텐츠 사이트의 뉴스레터 구독 전환율이 2%입니다. 구독 폼을 개선하여 25% 상대적 개선(2%에서 2.5%로)을 감지하려 합니다.

계산 과정:

  • 기준 전환율(p): 0.02
  • 절대적 MDE: 0.02 x 0.25 = 0.005
  • n = 16 x 0.02 x 0.98 / (0.005의 제곱)
  • n = 약 12,500명 (버전당)

결론: 총 25,000명의 방문자가 필요합니다.

빠른 참조를 위한 샘플 크기 표

매번 계산하기 번거롭다면, 아래 표를 참고하세요. 모든 수치는 버전당 필요한 방문자 수입니다.

기준 전환율10% 상승 감지20% 상승 감지30% 상승 감지
1%315,000명79,000명35,000명
3%103,000명26,000명11,500명
5%61,000명15,000명6,800명
10%29,000명7,200명3,200명
20%13,000명3,200명1,400명

이 표를 통해 알 수 있는 패턴이 있습니다. 기준 전환율이 높을수록, 그리고 감지하려는 개선 폭이 클수록 필요한 샘플 크기가 줄어듭니다.

샘플 크기 관련 흔한 실수와 해결책

테스트를 너무 일찍 중단하는 실수

이것이 A/B 테스트에서 가장 흔한 실수입니다. 테스트 3일차에 95% 유의성이 나타났다고 바로 결과를 확정하면 어떻게 될까요?

통계학에서 이를 "엿보기 문제(peeking problem)"라고 부릅니다. 매일 결과를 확인하고 유의성이 나타날 때마다 테스트를 중단하면, 위양성(실제로는 차이가 없는데 있다고 판단하는 오류) 확률이 급격히 높아집니다. 3일차의 95% 유의성이 14일차에는 사라질 수 있습니다.

해결책: 테스트 시작 전에 계산한 샘플 크기에 도달할 때까지 기다리세요. 중간에 결과를 확인해야 한다면, 순차적 테스트(sequential testing) 방법을 사용하세요.

잘못된 기준 전환율 사용

"지난달 전환율이 5%였으니까 그걸 쓰면 되겠지"라고 생각하기 쉽습니다. 하지만 그 5%가 블랙프라이데이 프로모션 기간의 수치였다면? 평소보다 훨씬 높은 수치일 가능성이 큽니다.

정확한 기준 전환율을 얻으려면:

  • 테스트와 같은 트래픽 소스의 데이터를 사용하세요
  • 특별한 이벤트나 프로모션이 없는 기간의 데이터를 참고하세요
  • 계절적 변동을 고려하세요 (연말 쇼핑 시즌과 1월은 전환율이 크게 다릅니다)

동시에 여러 테스트 실행 시 보정 누락

같은 페이지에서 동시에 여러 요소를 테스트하면 위양성 확률이 복합적으로 증가합니다. 5개의 테스트를 동시에 실행하면, 하나 이상에서 잘못된 결론을 내릴 확률이 23%까지 올라갑니다.

해결책: 다중 테스트 시에는 본페로니 보정(Bonferroni correction)이나 유사한 통계적 보정 방법을 적용하세요. 또는 한 번에 하나의 테스트만 실행하세요.

사후 세그먼트 분석의 함정

"전체 결과는 유의미하지 않았지만, 25-34세 모바일 사용자에서는 유의미한 차이가 있어!"

이런 발견은 매력적으로 보이지만 위험합니다. 충분히 많은 세그먼트를 분석하면 우연히 유의미해 보이는 결과가 나올 수밖에 없습니다.

세그먼트 분석을 계획하고 있다면:

  • 테스트 시작 전에 분석할 세그먼트를 미리 정의하세요
  • 각 세그먼트별로 필요한 샘플 크기를 계산하세요
  • "25-34세 여성 모바일 신규 방문자"처럼 지나치게 세분화된 세그먼트는 피하세요

정리하며: 샘플 크기 계산의 핵심 원칙

적절한 샘플 크기 계산은 A/B 테스트의 신뢰성을 보장하는 기본 중의 기본입니다. 다음 원칙을 기억하세요.

테스트 시작 전에 계산하세요. 필요한 샘플 크기를 알아야 테스트 기간을 예측하고 리소스를 계획할 수 있습니다.

MDE 설정에 현실적이 되세요. 5%의 미세한 개선을 감지하고 싶다면 그에 상응하는 대규모 트래픽이 필요합니다. 트래픽이 제한적이라면 더 큰 MDE를 수용하세요.

계획된 샘플 크기를 지키세요. 중간에 좋은 결과가 보인다고 일찍 중단하지 마세요. 반대로 나쁜 결과가 보인다고 일찍 포기하지도 마세요.

정확한 기준 데이터를 사용하세요. 잘못된 기준 전환율은 잘못된 샘플 크기 계산으로 이어지고, 결국 신뢰할 수 없는 결과를 낳습니다.

확신이 서지 않을 때는 항상 더 큰 샘플 크기를 선택하세요. 결론을 내릴 수 없는 테스트보다 시간이 조금 더 걸리는 테스트가 낫습니다.

관련 글

A/B 테스트

비즈니스와 마케팅에서의 AI: 2025년에 실제로 효과 있는 것들

과장된 이야기를 넘어서, 지금 마케팅, 고객 경험, 비즈니스 운영을 실제로 변화시키고 있는 실용적인 AI 활용법을 알아봅니다.

A/B 테스트

자동화된 A/B 테스트: 수동 실험에서 지속적 최적화로

자동화된 A/B 테스트와 멀티암드 밴딧 알고리즘이 전환율 최적화를 어떻게 변화시키고 있는지 알아보세요. 자동화 테스트와 전통적인 방법을 언제 사용해야 하는지 배워봅니다.

LogoConvertize

CRO & 마케팅 자동화

홈가이드도구

© 2026 Convertize. All rights reserved.