실험 기반 제품 개선 문화 형성을 위한 해외 빅테크 기업들의 노력

Column
Experimentation

해외 빅테크 기업들은 실험 기반 제품 개선 문화를 형성해내기 위해 실험 플랫폼 개발 외에도 실험 기반 제품 평가 전략 수립, 주기적인 직원 교육 등 수많은 노력을 이어왔다.

Author

Taemo Bang

Published

October 1, 2024

앞선 에서 이야기했던 온라인 실험에 꽃을 피우기 위한 필수 요소 중 하나인 “문화 형성”에 관해, 과연 해외 빅테크 기업들은 이 부분에 대해 어떤 노력을 기울였는지에 대해서 이야기해보려고 한다. (Gupta et al. 2019)에 그들의 노력들이 생생히 기록되어 있다. 미국 내 실험에 진심인 수많은 테크 기업들의 실무자들이 모여 쓴 페이퍼인데, 2019년에 벌써 이러한 논문을 낼 정도로 수준 높은 실험 기술력과 문화를 가지고 있었다는게 참 부럽다.

이전 글에서 결국 “온라인 실험”의 꽃을 피워내기 위해선 “문화 형성”과 “자동화”라는 두 가지 요소가 필수적으로 충족되어야 함을 깨달았다고 이야기했는데, 이들 또한 이미 먼 과거에 나와 똑같은 깨달음을 얻지 않았을까? 그들이 과거에 했던 부단한 노력을 평가 전략, 실험 확장을 위한 교육 두 가지 방면으로 정리해보려고 한다.

평가 전략

제품의 모든 변화를 OCE1를 기반으로 검증하도록 독려하기 위해 그들은 다양한 전략을 취했다.

전략 설명 예시
고강도 접근법2 모든 팀과 깊이 있게 관여하는 데 많은 오버헤드가 필요하여, 실험 확장에 병목을 야기할 수 있음 LinkedIn
- 실험 팀이 매 분기 비즈니스에 중요한 팀을 우선순위로 두고 긴밀히 협력
- 분기 말에 해당 팀은 향후 제품 개선에 실험 플랫폼을 사용하는 것에 동의하고, 실험 팀은 이를 계속 모니터링함
- 이러한 과정을 반복함으로써 몇 년에 걸쳐 실험 기반 제품 개선 문화가 구축됨

Microsoft
- 실험 팀이 제품에 미치는 실험의 영향을 고려하여 제품 팀을 선택함
- 여러 해 동안 제품 팀과 매우 밀접하게 협력하여 실험의 도입과 성숙도를 점진적으로 향상시킴
하향식 접근법3 - 리더십 차원에서 실험에 관한 지지 필요
- 팀 목표를 OCE에서 지표를 향상시키는 것으로 설정함으로써, 모든 출시 결정이 주요 지표에 미치는 영향을 바탕으로 논의되는 문화를 만듦
- 제품 팀은 주요 지표를 개선하는 변경 사항의 출시를 축하하고, 중요한 지표에 부정적인 영향을 미치는 변경 사항의 출시를 하지 않기로 결정한 것도 축하함
- 팀의 주요 지표는 사전에 결정되어 팀 전체가 동의해야함
Netflix
- 실험 결과의 동료 평가4 문화를 장려하기 위해 정기적으로 제품 전략 포럼5 개최
- 이 포럼에서 실험 결과를 요약하고 실험 오너, PM, 리더십 팀 간에 토론이 이루어짐6
부정, 긍정 사례 연구7 - 다음의 2가지 사례에 관한 연구 및 문서화는 문화의 변화*를 이끄는 데에 큰 도움이 됨
- 실험 전 긍정적으로 평가되었던 아이디어가 실제 실험에서는 주요 지표의 큰 손실을 이끄는 부정적 결과를 낳은 경우
- 아무도 중요치 않다고 생각했던 아이디어가 실제 실험에서는 주표 지표의 큰 개선을 이끄는 긍정적 결과를 낳은 경우
- 여기서 문화의 변화란, 직관이 아닌 데이터와 실험 결과를 기반으로 의사 결정을 내리는 데이터 중심의 사고 방식으로 전환하는 것을 의미함
- 이러한 사례는 우리의 직관이 아이디어의 가치를 판단하는 데 항상 신뢰할 수 없다는 점을 받아들일 수 있게함
Bing
- 한 엔지니어가 제목이 매우 짧은 광고의 제목을 더 길게 만드는 아이디어를 냄
- 간단하고 비용이 작은 변화 였으나, 중요치 않다도고 생각되던 아이디어라 몇달 간 개발을 미룸
- 그러나, 해당 기능(feature) 개발 후 실제 실험을 수행해 본 결과, Bing 역사상 가장 큰 수익 증가를 낸 아이디어가 됨
안전한 롤아웃8 - 기존 프로세스에 맞추어 실험을 도입하고 개선하는 것은 각 제품 팀의 실험 도입을 더욱 쉽게 만듦
- 이 방법은 기능 팀의 개발 프로세스에 실험을 자연스럽게 통합할 수 있게 해주며, 시간이 지나면서 기능 팀이 실험의 가치를 인식하게 되어 그들이 더 많은 가설을 실험으로 테스트하게 만듦
Microsoft, Google
- 일부 기능 팀들이 모든 사용자에게 새로운 기능을 안전하게 롤아웃하기 위해 실험을 사용하기 시작함
- A/B 테스트가 배포 중 자동으로 실행되어 기능이 점진적으로 일부 사용자에게만 활성화되며, 나머지 사용자에게는 비활성화된 상태로 유지
- 이러한 롤아웃 간 주요 신뢰성과 사용자 행동 지표에 대한 기능의 영향을 평가하여 버그를 발견할 수 있음
성적표 운영 및 게임화9 - Microsoft
- 각 팀의 실험 성숙도를 평가하는 성적표를 통해 실험 도입 장려
- 이 성적표는 팀이 실험을 통해 제품을 개선할 수 있는 잠재력을 생각하게 하며, 팀의 현재 상태와 다른 팀들과의 상대적 위치를 보여줌
- 이를 통해 팀은 추가 투자가 필요한 주요 영역을 강조할 수 있음

Booking.com
- 실험 도입 및 올바른 실험 방법을 독려하기 위해, 실험 플랫폼에서 사용자가 배지를 받을 수 있도록 게임화 요소 도입
교육 및 지원10 - 조직에서 수천 개의 실험을 실행한다고 할 때, 모든 실험을 모니터링하여 신뢰할 수 있는 분석 결과를 보장하는 것은 불가능
- 각 팀에 전문가를 배치하여 신뢰할 수 있는 실험 결과를 얻을 수 있도록 돕는 것이 중요
- OCE를 효과적으로 사용하고 일반적인 함정을 피하는 방법 교육하는 것은 실험 확장에 필수
Microsoft
- 신뢰할 수 있는 실험 분석을 보장하기 위해 광범위한 교육과 지원 제공

핵심은 적절한 동기부여와 교육 지원을 통해 전사 구성원들의 실험 숙련도를 끌어올리는 것에 있다. 그들을 육성하는 데에 있어 동기부여를 잃지 않도록 실험 중심 제품 개선 문화에 맞는 적절한 평가 기준의 설립 또한 리더십 레벨에서 충분히 고민하여 반영해주어야 할 것이다.

실험 확장을 위한 교육

그들은 다음의 2가지 문제 의식이 있었기에 교육을 통한 실험 전문가 육성이 필요함을 깨달을 수 있었다.

  • A/B 테스트의 복잡성

    • A/B 테스트의 개념은 간단하지만 특정 기능을 테스트하고 실험 결과를 분석하는 데는 복잡한 문제가 있음

    • Q&A 수준으로는 해결할 수 없는 매우 구체적인 질문이 자주 발생

    • 이에따라 제품 팀은 실험을 실행할 때 맞춤형 지원이 필요

  • 중앙 집중식 지원의 한계

    • 중앙 팀은 지원에 너무 많은 시간을 할애하게 되어 다른 작업에 집중하지 못할 수 있음

    • 특히 특정 제품의 도메인 지식이 필요할 때가 많음

    • 중앙 팀에서 모든 제품에 대해 깊은 지식을 갖추는 것은 불가능하나, 각 제품 팀의 구성원들에게 기본적인 실험 지식을 확장하는 것은 가능함

    • 이에 따라 OCE 전문 지식을 확산시켜 실험을 확장할 수 있도록 함

이렇게 조직 내에서 OCE의 전문 지식을 확산시키고 실험을 확장하기 위해 해결해야 할 몇 가지 주요 실질적인 도전 과제가 있었다.

  • 프로그램 설정: 실험 오너들을 지원하는 프로그램을 어떻게 설정할 것인가?

  • 동기 부여: 그들을 어떻게 동기부여 할 것인가?

  • 교육: 그들을 어떻게 훈련시킬 것인가?

  • 품질 유지: 실험의 품질 기준을 어떻게 유지할 것인가?

이러한 도전 과제를 해결하기위해 해외 빅테크 회사에서 운영한 프로그램들을 정리해보면 다음과 같다.

기업 프로그램 명 구성 동기 부여 교육 품질 유지 운영 방식
Yandex 실험 전문가11 - 제품 팀들이 자발적으로 실험 전문가 신청
- 중앙 실험 그룹에서 전문가 직접 선정
- 디지털 배지 (내부 직원 시스템)
- 실험 승인 권한
- - 최소한의 실험 경험 체크 리스트 충족 여부 검토
- 비공식 인터뷰를 통한 실험 전문가 적합성 평가
- 실험 승인 전 실험 전문가 검토
- 실험 진행 중 실험 전문가들의 지속적 지원 제공
Amazon 웹랩 바 레이저12 - 2013년 개인화 팀에서 고품질의 실험설계와 분석, 의사결정 촉진을 위한 파일럿 프로그램으로 시작
- 프로그램의 성공으로 전사 확장
- 역할의 중요성
- 초기 바 레이저들은 높은 판단력과 실험 경험을 가진 사람들로, 직원들을 가르치고 영향력을 발휘할 수 있는 능력을 갖춘 사람들로 선택
- 개인 성장
- 멘토링 프로그램
- 기존 바 레이저가 신규 바 레이저에게 실험에 관한 지식과 경험 전수
- 신규 바 레이저의 역할에 대한 기대치를 명확하게 정의하고 문서화
- 바 레이저가 주당 약 2~4시간을 실험 지원에 할애함 - 바 레이저의 검토를 통한 실험 품질 향상
- 바 레이저 검토는 선택적인 것이며, 이는 충분한 수의 바 레이저가 없는 경우 유연성 제공
Twitter 실험 셰퍼드13 - 2016년 제품 팀에서 도입
- 2019년 당시 50명의 셰퍼드가 활동 중이었음
- 책임감 부여
- 실험 사전 또는 출시 전 실험 리뷰
- 개인 성장
- 제품의 질을 높이고, 전문 지식 사내 공유
- 구조화된 훈련 프로그램
- 셰퍼드는 2개월 간 매주 1시간 수업으로 구성된 구조화된 훈련 프로그램에 참여14
- 사례 연구 기반 학습
- 수업 외 사례 연구 기반 토론을 통해 실험설계와 분석에 관한 깊은 이해 도모
- 엄격한 셰퍼드 선정 요건
- 주간 실험 리뷰 시스템
- 일주일에 한 번 실험 오너의 요청 처리
- 각자 일정 기간 대기 근무하며, 실험 리뷰 및 지원 제공
Booking.com 실험 대사15 - 중앙 실험 조직에서 실험 지원에 관심이 있는, 실험 경험이 풍부한 사람들을 대사로 임명
- 대사는 약 15명으로 구성되며, 제품 조직에서 실험 지원이 가장 필요한 부분을 담당
- 제품에 관한 책임감
- 우선 지원
- 중앙 실험 조직의 우선 지원을 받을 수 있음
- 제품 성과 리뷰에서 성과 인정
- 티켓 시스템
- 대사들끼리 협력하여 실험 지원 요청 티켓 처리
- 중앙 실험 조직 내부 커뮤니케이션 참가
- 대사들은 중앙 실험 조직의 내부 커뮤니케이션에 참가하여, 특정 문제 또는 현재 진행 중인 개발에 대해 최신 정보를 얻음
- 월간 회의
- 대사들끼리 제품 요구와 우려사항 논의
- 대사들은 실험 지원의 첫 번째 라인으로서 역할을 하며, 실험 관련 문제를 신속히 처리함 - 대사들이 실험 관련 질문 및 문제 처리
- 필요시 중앙 실험 조직으로 에스컬레이션 또는 우선적 지원을 받을 수 있음
Booking.com 동료 평가 - 누구나 자발적으로 참여 가능
- 매주 참여자들을 무작위로 짝지어 실험 리뷰 및 댓글 작성을 통한 토론 지원
- 새로운 친구와 학습 기회 제공
- 디지털 배지16
- 경험자와 매칭
- 새로운 참여자는 처음 몇 번의 리뷰에서 경험이 많은 사람과 짝지어져, 실험 리뷰에 대한 이해를 높일 수 있음
- 리뷰 가이드
- 좋은 리뷰를 작성하는 방법에 대한 한 페이지 짜리 가이드 제공
- 리뷰와 댓글에 관한 KPI 정의 - 참여자들이 실험 플랫폼에서 “무작위 실험 보기”를 클릭하여, 리뷰할 실험을 쉽게 선택
- 플랫폼에 내장된 코멘트와 스레딩 기능을 통해 리뷰와 관련된 토론 지원
Microsoft Center of Exellence 모델 - 실험 팀의 데이터 과학자들을 제품 팀에 배치하여 실험설계와 분석 직접 지원
- 실험 팀의 데이터 과학자들의 자신의 전문 지식을 제품 팀에 공유
- 역할의 중요성
- 제품 성과 리뷰에서 성과 인정
- 집중 교육 프로그램
- 제품 팀 대상 집중 교육 프로그램 운영
- 실험설계, 분석, 결과 해석 등 실험 수행에 필요한 모든 기술 커버
- 지속적 지원
- 제품 팀이 자립할 수 있을때까지 지속적 지원 제공
- 월간 스코어카드 관리
- 실험의 대규모 확대를 위해 매년 초 각 제품 팀은 온보딩 목표 설정
- 실험 팀에서 각 제품 팀에서 설정한 온보딩 목표를 측정하기 위해 매월 스코어카드 관리
- 정기 리뷰
- 데이터 과학자와 챔피언(?)은 6주마다 제품의 실험 운영을 검토하여 과거의 성과 실패를 강조하고, 부족한 점을 해결하기 위한 계획을 세움
- 초기에는 데이터 과학자들이 모든 지원 요구를 처리하지만, 시간이 지나면서 제품 팀은 점점 더 자립적으로 실험을 수행할 수 있게 됨
- 데이터 과학자들이 제품 팀에 전문 지식 전수
Google Just-in-time 교육 모델 - 실험 설계와 분석에 대한 실시간 지원을 제공하여, 팀이 필요시 즉각적 도움을 받을 수 있도록 함
- 실험 설계와 분석에 대한 질문 체크리스트를 제공하여, 팀이 실험을 계획하고 실행하는 과정에서 고려해야할 중요한 요소들을 놓치지 않도록 도움
- 성과 평가 반영
- 실험 결과와 그에 따른 데이터 기반 의사결정으로 팀의 성과 평가
- 개인 성장
- 실시간 교육을 통한 지속적 학습과 성장
- 지속적 지원
- 첫 번째 실험에서는 많은 지원이 필요하지만, 이후 실험에서는 점점 더 적은 지원이 필요하게 되며 추후 자립이 가능할 정도로 역량을 키울 수 있음
- 실험 리뷰
- 실험 리뷰를 통해 팀은 자신의 실험 결과를 분석하고, 이를 바탕으로 개선할 수 있는 방법을 배우게 됨
- 메타 분석
- 실험 리뷰는 메타 분석을 가능하게 하며, 더 큰 패턴을 찾고 실험 결과의 신뢰성을 유지하는데 중요한 역할을 함
- 지속적 개선
- 실험 리뷰를 통해 얻은 피드백을 바탕으로 지속적 실험 설계와 분석 방법 개선 가능
- 팀이 실험 계획 또는 실행 과정에서 질문이 생기면, Just-in-time 교육 모델을 통해 즉각적 지원
- 첫 번째 실험에서는 많은 지원이 필요하지만, 이후 실험에서는 더욱 자립적으로 실험을 수행할 수 있음

여기서 실험에 숙련된 Data Scientist 인력이 부족한 조직에게는 Just-in-time 교육 모델이 가장 괜찮은 선택지로 보인다. 반대로 인력이 충분히 많아 특정 인원이 교육에 집중할 여력이 되는 경우 트위터의 실험 셰퍼드 프로그램이 보다 수준 높은 실험 전문가를 육성할 수 있는 프로그램이지 않을까 생각이 든다.

맺음말

실험 기반 제품 개선 문화를 형성하기 위해 그들이 취한 전략과 교육 프로그램에는 다음의 5가지 핵심 요소가 녹아있다고 본다.

  • 실험 피쳐 Ship 권한 분산화

    • 실험 피쳐의 배포 권한을 중앙에서 팀으로 분산시켜17 각 팀이 실험을 통해 자신의 피쳐를 직접 배포할 수 있도록 한다. 이는 팀의 자율성을 높이고, 실험 문화를 조직 전체에 확산시키는 데 중요한 역할을 한다.

    • e.g. Yandex의 실험 전문가 프로그램과 Amazon의 Weblab Bar Raisers 프로그램은 실험 승인 권한을 전문가나 Bar Raiser에게 부여하여 각 팀이 실험 결과에 따라 피쳐를 배포할 수 있도록 하고 있다.

  • 도메인 전문가를 실험 전문가로 육성

    • 도메인 지식이 풍부한 전문가들을 실험 전문가로 육성하여, 이들이 실험 설계와 분석을 주도하게 한다. 이를 통해 실험의 품질을 높이고, 실험 결과를 더 잘 해석하여 실질적인 제품 개선으로 이어지도록 한다.

    • e.g. Twitter의 Experiment Shepherds와 Microsoft의 Center of Excellence 모델은 도메인 전문가들이 실험 전문가로서 활동하도록 지원하고 있다.

  • 지속적인 교육 및 멘토링

    • 실험 문화를 조직 전체에 확산시키기 위해 지속적인 교육과 멘토링 프로그램을 운영한다. 이는 팀이 실험 설계, 분석 및 결과 해석에 대한 역량을 꾸준히 향상시킬 수 있도록 돕는다.

    • e.g. Amazon의 Weblab Bar Raisers 프로그램과 Google의 Just-in-time 교육 모델은 체계적인 교육과 멘토링을 통해 팀의 실험 역량을 강화하고 있다.

  • 동기 부여 및 인정

    • 실험 참여자들에게 적절한 동기 부여와 인정을 제공하여, 실험 문화를 강화한다. 배지, 성과 인정, 성장 기회 제공 등을 통해 팀의 참여를 유도하고 실험의 중요성을 강조한다.

    • e.g. Booking.com의 Experimentation Ambassadors와 Peer-Review Program은 참여자들에게 배지와 성과 인정을 통해 동기를 부여하고 있다.

  • 협업 및 지식 공유

    • 팀 간 협업과 지식 공유를 장려하여, 실험의 질을 높이고 다양한 관점에서의 피드백을 수용한다. 이를 통해 실험 결과의 신뢰성을 높이고, 제품 개선의 효과를 극대화할 수 있다.

    • e.g. Booking.com의 Peer-Review Program과 Twitter의 Experiment Shepherds 프로그램은 팀 간 협업과 지식 공유를 통해 실험의 질을 향상시키고 있다.

그들이 수행한 노력들이 이정도 수준으로 문서화가 되는 것만 봐도 실험 기반 제품 개선 문화를 형성한다는 것이 얼마나 어려운지 알 수 있다. 이러한 페이퍼를 보았기에 앞전의 글에서 의도적이고 부단한 노력이 필요하다는 것을 여러번 강조할 수 밖에 없었다. 핵심은 동기 부여를 통해 사내 도메인 전문가들을 수많은 실험 전문가를 육성해내고, 배포 권한을 분산18시키는 것에 있다.

References

Gupta, Somit, Ronny Kohavi, Diane Tang, Ya Xu, Reid Andersen, Eytan Bakshy, Niall Cardin, et al. 2019. “Top Challenges from the First Practical Online Controlled Experiments Summit.” ACM SIGKDD Explorations Newsletter 21 (1): 20–35. https://doi.org/10.1145/3331651.3331655.

Footnotes

  1. Online Controlled Experiments (온라인 통제 실험)↩︎

  2. High touch↩︎

  3. Top down↩︎

  4. peer review↩︎

  5. Product Stratege Forums↩︎

  6. 실험을 롤아웃하기 전에 이러한 리뷰를 거침 (Rollout: 변경사항을 실제로 배포하는 것)↩︎

  7. Negative and Positive Case Studies↩︎

  8. Safe Rollout↩︎

  9. Report Cards and Gamification↩︎

  10. Education and support↩︎

  11. Experts on Experiment↩︎

  12. Weblab Bar Raisers↩︎

  13. Experiment Shepherds↩︎

  14. 실험설계, 실험윤리, 지표, 기본 통계 등 7개 주제로 구성↩︎

  15. Experimentation Ambassadors↩︎

  16. 실험 플랫폼 인터페이스에서 제공↩︎

  17. 권력이 집중되면 부패하기 마련이다.↩︎

  18. 실험 배포 권한이 하나의 조직에 집중되어 있을 경우 그 조직은 정치화되는 것 또는 그밖의 모든 조직에 미움을 사는 것은 시간 문제일 것이다.↩︎

Reuse

Citation

BibTeX citation:
@online{bang2024,
  author = {Bang, Taemo},
  title = {실험 기반 제품 개선 문화 형성을 위한 해외 빅테크 기업들의
    노력},
  date = {2024-10-01},
  url = {https://taemobang.com/posts/2024-10-01-how-to-develop-experimentation-culture/},
  langid = {kr}
}
For attribution, please cite this work as:
Bang, Taemo. 2024. “실험 기반 제품 개선 문화 형성을 위한 해외 빅테크 기업들의 노력.” October 1, 2024. https://taemobang.com/posts/2024-10-01-how-to-develop-experimentation-culture/.

새 글이 발행되면 알려드려요.

포스팅을 독려해주실 수 있어요.