온라인 통제 실험에서 쓰이는 용어 정리

Experimentation

온라인 통제 실험을 공부할 때 알아두면 좋은 용어들

Author

Taemo Bang

Published

October 31, 2022

Photo by Romain Vignes on Unsplash
요즘IT에 기고한 온라인 실험 관련 글 보러가기

관심 있으신 분들은 여기를 확인해보세요.

A/B test, 더 넓게는 온라인 종합 대조 실험(online controlled experiment)의 이해에 필요한 용어들을 간략하게 정리해보고자 합니다. 용어들은 앞으로 꾸준하게 추가될 예정입니다. 새로운 분야에 대한 공부를 시작할 때, 새롭게 알게 된 용어에 대한 확실한 정의는 매우 중요하니까요. 본 글에서 정의하는 용어는 (Kohavi, Tang, and Xu 2020)를 기반으로 합니다.

A/B 테스트

다 아시겠지만 한 번 정의하고 넘어가려고 합니다. A/B 테스트는 두 개의 변형(variant) A와 B를 사용하는 온라인 종합 대조 실험의 가장 간단한 형태라고 할 수 있습니다. 여기서 대조군에는 기존의 기능, 프로덕트 또는 알고리즘1을 부여받은 사용자들이 랜덤하게(randomized) 배치되고, 실험군은 핵심 지표(metrics) 개선을 기대하며 도입하는 새로운 어떤 것을 부여받은 사용자들이 랜덤하게 배치될 겁니다. 온라인 종합 실험에서 랜덤성(Randomization)은 매우 중요합니다. 어떠한 요인도 사용자들을 각 변형에 배정하는 데에 영향을 주도록 허용해서는 안됩니다. 랜덤성은 “확률에 기초한 의도적 선택”을 의미한다는 점을 기억하시기 바랍니다.

OEC

OEC는 전체평가기준으로 Overall Evaluation Criterion의 약자입니다. 실험 목적에 해당하는 계량적인 지표를 의미합니다. 통계학에서는 이를 반응변수(reponse variable), 종속변수(dependent variable)라 칭하기도 하죠. 그외 결과(outcome), 평가(evaluation), 적합도 함수(fitness function)을 동의어로 사용하기도 합니다(Quarto-vonTibadar 2006). OEC는 단기적으로는 실험 기간 동안 측정할 수 있어야하며, 동시에 장기적으로는 전사의 전략적 목표와 맞닿아 있어야 합니다. 예를 들어, 특정 온라인 서비스의 OEC는 사용자별 활동 일 수(active days per user)가 될 수 있습니다. 단순하게 매출과 같은 후행지표를 OEC로 선정해서는 안됩니다. 전사적으로 좋은 OEC가 설정되지 않았다는 것은, 리소스를 낭비하고 있다는 뜻일 수 있습니다.

파라미터

파라미터(parameter)는 OEC 또는 기타 관심 지표에 영향을 미칠 것으로 간주되는 통제 가능한 실험변수를 뜻합니다. 요인(factors), 변수(variables)라 칭하기도 합니다. 파라미터에는 값이 할당되는데, 이를 수준(level)이라 말하더군요. 통계학에 익숙하신 분들은 범주형 변수를 떠올리시면 될 것 같습니다. 예를 들어, A/B 테스트에서 파라미터는 2개의 수준을 갖는 단일 파라미터에 해당할 것입니다. 온라인 환경에서는 이처럼 여러 개의 수준을 갖는 단일 파라미터 설계를 사용하는 것이 일반적입니다. 여러 파라미터를 사용하는 테스트는 다변수 테스트(MVTs, Mutivariate tests)2라 부릅니다. 온라인 환경에서는 글꼴 색상과 크기에 관한 실험을 하며 글꼴 색상과 크기에 관한 최적 조합을 찾고자할 때 사용되곤 합니다.

변형군

변형군(variants)를 파라미터라는 용어를 동원하여 정의하자면, 파라미터에 값을 할당하여 테스트 하는 사용자 그룹이라고 할 수 있습니다. 예를 들어, A/B 테스트에서 A와 B는 대조군(control group), 실험군(treatment group)이라 불리는 변형군이 있습니다. 그냥 편하게 실험을 구성하는 각 그룹을 변형군이라고 칭한다고 보시면 될 것 같습니다. 실험군에 대해서만 변형군이라고 칭하는 일부 문헌도 존재한다고 합니다.

가드레일 지표

가드레일 지표(guardrail metrics)란, 조직이 무엇을 변화시키지 않으려 하는지 식별하기 위해 꼭 필요한 지표라고 할 수 있겠습니다. 이름에 가드레일이 들어가는 이유 또한 이와 맞닿아 있습니다. 예를 들어, 바다 위를 떠다니는 유람선에서 승객들에게 제공하는 음식을 개선하기 위한 실험을 생각해봅시다. 이때, 바다 위를 항해하는 유람선에서 승객들의 안전 지표는 다른 어떤 요인들과 비교해도, 더 중요한 지표라고 할 수 있겠죠. 즉, 승객 안전은 이 실험에서 가드레일 지표라 할 수 있습니다. 승객들의 안전만큼은 결코 변화시키지 않고(낮추지 않고), 실험을 진행하겠다는 말입니다. 이를 위해서는 실험에 대한 OEC에 승객들의 안전에 관한 변수의 가중치를 매우 높여주면 됩니다. 안전에 따라 OEC가 민감하게 변화하도록 말이죠. 이 문제를 온라인 환경으로 가져와보면 소프트웨어 충돌을 생각해볼 수 있습니다. 도입한 기능이 제품의 충돌을 증가시키는 경우 유저들의 경험에는 심각한 영향을 끼칠 것입니다.

References

Kohavi, Ron, Diane Tang, and Ya Xu. 2020. Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing. Cambridge University Press. https://experimentguide.com/.

Footnotes

  1. e.g. 이커머스 업계의 추천 시스템을 구성하는 알고리즘↩︎

  2. Multivariate은 다변량인데, 다변수 테스트라고 번역하는게 맞는지 모르겠습니다. 우선 책에 이렇게 번역이 되어있어 다변수 테스트라 남겨둡니다.↩︎

Reuse

Citation

BibTeX citation:
@online{bang2022,
  author = {Bang, Taemo},
  title = {온라인 통제 실험에서 쓰이는 용어 정리},
  date = {2022-10-31},
  url = {https://taemobang.com/posts/2022-10-31-experimentation-terms/},
  langid = {kr}
}
For attribution, please cite this work as:
Bang, Taemo. 2022. “온라인 통제 실험에서 쓰이는 용어 정리.” October 31, 2022. https://taemobang.com/posts/2022-10-31-experimentation-terms/.

새 글이 발행되면 알려드려요.

포스팅을 독려해주실 수 있어요.