월간 회고록: 8월
사용자 중심의 지표 설계와 Trustworthy A/B Test. 목표와 꿈, 일의 태도 등 여러 개인적인 생각이 많았던 8월.
업무
사용자 중심의 지표 설계 (Feat. Spotify)
8월 중순에 Spotify에서 제안한 사용자 중심의 지표 설계에 관한 내용을 팀 내부에 공유했다. KDD 2021에서 Spotify 연구진이 Mixed Method Development of Evaluation Metrics를 제목으로 발표한 내용인데, 정성 연구(qualitative study)와 정량 연구(quantative study)을 함께 활용하여1 사용자 중심의 평가 지표를 설계하는 방식에 대해 상세하게 다루고있다.
8월말에 우리가 현재 집중하고 있는 프로덕트에 대한 사용자 조사가 예정되어있었기도 했고,마침 타이밍이 딱 맞게 Spotify의 발표 슬라이드가 내 눈에 들어왔다. 사용자 중심의 지표를 설계하기 위해서는 정량 연구(데이터 분석)만으로는 한계가 있으며 정성 연구(사용자 조사)의 활용까지 필요로 된다는 내용인데, 마침 우리팀에게도 꼭 필요한 내용이라 발표 자료를 정리하고 팀 내부에 공유하는 시간을 가졌다.
슬라이드가 수백장에 달하는데 그들이 제시하는 과정을 요약하면 다음과 같다.
1 Product Background
우리 제품을 3가지 측면에서 다시 한 번 이해해본다.
- 개발 배경
- 시스템 관점: 시스템 관점에서의 해당 프로덕트의 역할
- 사용자 관점: 사용자 관점에서의 해당 프로덕트의 역할
2 Metric Use
- 그간 우리가 제품 성과 평가에 사용해온 지표와 해당 지표 설계의 기반이 된 암묵적 가정을 검토한다.
3 User Study (Qualitative Study)
- 사용자 조사를 통해 사용자가 제품을 사용하고 경험하는 방식을 깊게 이해한다.
- 이를 바탕으로 앞서 지표 설계시 우리가 생각했던 암묵적 가정이 들어맞는지 체크한다.
- 사용자 조사 내용을 바탕으로 사용자 중심의 새로운 가설을 생성한다.
4 Quantitative Follow-up
- 앞서 세운 새로운 사용자 중심의 가설들을 검증하기 위한 양적 연구(e.g. EDA를 통한 기초통계량 검토, 군집 분석, 예측 모델링 등)를 수행한다.
5 Applications
- 앞선 단계들에서 배운 것들을 제품에 어떻게 적용할지 결정한다.
위에 첨부한 링크에서 발표 슬라이드를 쭉 한 번 검토해보면 알 수 있겠지만, 상당히 인상적인 내용들이 많다. 정량 연구로서 누가(who), 언제(when), 어디서(where), 무엇을(what), 어떻게(How)까진 파악할 수 있으나, 왜(Why)에 대해서 알기는 상당히 어렵다. 즉, 고객이 특정한 행동 경향을 보이는 진짜 의중이 무엇인지는 파악하는 것이 불가능에 가깝다. 그저 “짐작”할 뿐이다.
여기서 정성 연구가 필요로된다. 정성 연구는 우리에게 왜(Why)를 알 수 있게해준다. 고객의 진짜 의중을 사용자 조사를 통해 깨닫고, 이를 바탕으로 새로운 가설을 세워 정량 연구로 검증함으로써 진정한 사용자 중심의 지표를 설계하자는 이야기다. 수백장에 이르는 Spotify 발표 슬라이드를 공부하며, 정성 연구의 영역 또한 프로덕트의 개선에 있어서 정말 중요함을 깨달을 수 있었다. 아울러, 사내 정성 연구자들과의 협업을 위해 팀 내부적으로 분석가들끼리 워크샵을 하면서 깨달았지만, 이야기를 나눌수록 사용자 조사에서 고려해야할 것이 정말 많다는 생각을 했다. 괜히 UX Researcher 라는 직무가 따로 존재하는게 아님을 깨달을 수 있었다.
사용자 중심 지표 설계에 관심이 많은 사람들이라면 꼭 한 번쯤 해당 슬라이드를 읽어보길 바란다. 마지막으로 Spotify가 정성 연구와 정량 연구를 활용하여 사용자 중심 지표를 개발하며 배운 것들에 대해서 공유해본다.
사용자들은 당신이 제품 개발 당시 떠올린 비전에는 관심이 없다. 즉, 우리가 해당 프로덕트를 만들며 생각했던 유저들의 사용 행태와 실제 유저들의 사용 행태에는 큰 괴리가 존재한다.
유저들의 행동 지표(e.g. CTR, consumption time)와 시스템 지표(e.g. long-term retention)은 항상 같이 움직이진 않는다. 아울러, EDA와 같은 정량연구만으로는 행동 지표에 내재된 why를 파악하기란 매우 어려우며 편향이 내재되어있을 가능성이 매우높다. 이 부분에 관한 간극은 정성 연구가 매워줄 수 있다.
정성 연구에서 설정한 가설의 검증을 위해 종종 데이터 마트의 구조(또는 로깅되는 데이터의 구조) 자체를 바꿀 일이 있을텐데, 꽤 짜증나는 작업인걸 알지만 충분한 가치가 있는 작업이다.
구체적으로 시작한 뒤에 일반화해라. 지표 설계에 있어서 종종 사람들은 모든 프로덕트에 적용이 될만한 지표를 찾아내려고 하는 경향이 있다. 이는 결코 가능하지 않다. 하나의 프로덕트에 깊게 집중하여, 해당 프로덕트만의 특성(유저의 반응을 포함한)을 고려한 구체적인 지표를 설계하려고 노력해라. 이러한 행위를 다양한 프로덕트에 대해 하다보면 지표를 이해하는 방법에 관한 종합적인 이해를 얻을 수 있을 것이다.
정성 연구자, 정량 연구자 간의 소통을 활발하게 해라. 서로에게 질문을 던질 것을 독려하는 환경을 만들고, 서로 긍정적이고 창의적인 토의를 할 수 있도록 끊임없이 노력하라.
Trustworthy A/B Tests
요즘 가장 관심을 갖고있는 영역을 꼽으라고하면 단연코 A/B Test일 것이다. 사실 해당 영역의 정식 명칭은 온라인 통제 실험(Online Controlled Experiment, 이하 OCE)이긴 하지만, 해당 영역 자체가 A/B Test2로 더 잘 알려져있으니 A/B Test로 퉁쳐서 이야기해보겠다. 지난 8개월 간 프로덕트 개선을 위한 A/B Test를 끊임없이 진행해오며, 우리가 설계한 실험, 분석 결과가 신뢰해도 될만한 것들인지에 대해 의문이 생기는 부분들을 여럿 관찰해왔다.
이에 따라 하마책을 다시 꺼내어 펴보고, 마소에서 수년전부터 잘 정리해둔 그들이 수많은 온라인 통제 실험을 진행하며 배운 것들에 관한 페이퍼도 들춰보았다. 우리가 관찰할 수 있었던 실험의 신뢰도를 의심스럽게 만드는 결과들, 수없는 회의를 진행하며 종종 이야기했던 우려스러운 점들 모두 들춰본 책과 페이퍼에 고스란히 담겨있었다.
A/B Test와 관련하여 딱 한 마디만 할 수 있다면, 다음과 같은 말을 하고싶다:
숫자를 얻는 것은 쉽지만, 신뢰할 수 있는 숫자를 얻는 것은 어렵다.
모든 영역이 그렇듯 “아는만큼 보인다.” 그간 접했던 A/B Test와 관련한 국내 아티클들에서는 대개 “실험 플랫폼 구축 및 분석 자동화를 통해 1년에 우리는 ~건에 달하는 실험을 진행하고 있어요.” 내지는 “실험을 대하는 그들의 문화” 정도에 관한 내용만 담겨있었다는 점이 참 아쉽다. 신뢰할 수 있는 A/B Test에 관심이 없다면 모르고 지나칠 수 밖에없는 함정들은 너무나도 많기 때문이다. 나 또한 이러한 함정들을 지난 8개월간 수많은 실험을 진행해오며, 우연히 진행한 2차례의 A/A test를 통해 알아차릴 수 있었기 때문이다.
그래서, 나는 앞으로 “신뢰할 수 있는 A/B Test 설계”, “정확한 측정”을 위해서는 어떤 노력들이 필요한지, 어떤 것들을 인지하고 있어야하는지에 대해서 꾸준히 이야기해보려고 한다. 페이스북과 링크드인에도 지난 8월 동안에 이와 관련한 여러 글을 끄적였다. A/B Test에 관심이 있는 사람이라면 읽어보길 바란다.😀
개인
장기적인 목표와 꿈
“5년 뒤, 10년 뒤에 어떤 사람이 될 것인가?”에 관한 늘상 고민이 있었다. 커리어적 목표의 방면이든, 꿈의 방면이든 말이다. 전자와 후자 모두 이제 어느정도 막연하게나마 설정이 된 것 같다. 여기서는 커리어적 목표에 대해서만 조금 이야기해보려고 한다. 커리어적 목표는 항상 고민이었다. 내게 항상 많은 영감을 주시는 팀 내 시니어 분석가님과 이야기를 나누며 이 부분을 어느정도 정립할 수 있었다. 그 분이 과거에 쓰신 블로그 글인데:
시니어 데이터분석가의 커리어에 대해서 이런저런 이야기를 듣고 “이거 블로그에 올리면 꽤 반응 좋을 것 같은데요?” 라는 말씀을 드렸더니 이미 작년에 쓰신 글이더라.😂 아무튼 나는 내 커리어의 장기적 목표를 떠올리면 누군가를 Lead하는 정도밖에 떠오르지 않았다. 위 글에서 제시하는 시니어 데이터분석가의 커리어 방향성은 5가지다.
분석팀 팀장 (Team lead, Manager)
뛰어난 IC = Principal Data Analyst/Scientist (매니저가 아닌 전문가 코스)
분석 툴 메이커 = Data Product Owner
PM
임원
각 방향의 자세한 설명은 위 블로그 링크를 참고하기 바란다. 나는 늘 두번째 방향으로 관성적으로 이끌려왔던 것 같다. 어떤 것을 깊게 공부하고, 이해한채로 누군가에게 귀감이 될 수 있는 분석/모델링을 할 때 가장 큰 만족감을 느껴왔던 것 같다. 꼭 누군가에게 귀감이 되는 것이 아니라도, 어떤 것을 깊게 공부하고 이해하는 과정 그 자체에서도 오는 만족감 또한 매우 컸다.
요즘은 세번째 방향성에도 끌린다. 앞서 말했듯 신뢰할 수 있는 실험을 설계하고 정확한 측정하는 일, 실험 전략을 짜는 일 등이 얼마나 어려운 일인지를 깨우치고나니, 신뢰할 수 있는 실험 플랫폼을 만들어내고 싶다는 생각을 했다. 아무튼, 흐릿했던 목표가 조금 더 구체화된 것만으로도 기분이 좋다.
일의 태도
이 부분도 팀 내 시니어 분석가 분과 이야기를 나누며 많은 생각이 들었던 부분이다. 이직 후 나는 “주니어”라는 한계에 스스로 가둬두었던 것 같다. 사실 생각해보면 주니어, 시니어를 연차로 나누긴 어렵다. 누군가는 저연차에도 주도적으로 일을 하며 팀 내외부적으로 영향력을 미치는 수준으로 업무를 수행할 수도 있고, 반대로 높은 연차에도 수동적으로 일을 하며 팀 외부적으로까진 영향을 미치지 못하는 수준의 업무를 수행할 수도 있다.
여기서 가장 하고싶은 말은 “일의 태도”다. 본인이 이미 시니어인 것처럼 이를 지향하고 일을 대해야한다는 것이다. 대부분의 승진은 이미 그 사람이 해당 수준의 일을 하고있을때 일어난다. 즉, 주니어라 생각하고 계속 주니어 수준의 일을 하면 그 사람은 영원히 주니어인 것이다. 이건 당연한 것이다. 회사에서 이제 “너 시니어야.”라고 특정 Grade로 진급을 시켜준다고해서, 갑자기 그사람의 능력이 시니어 수준으로 변하는 것은 아니다. 이미 그 자리에 준하는 수준의 업무 역량을 펼쳐보이고 있는 사람이 그 자리로 가는 것이다.
이를 이미 알고있었음에도, 지난 수개월간 무의식에 “나는 아직 주니어야.”와 같은 생각을 가지고 있었다는게 참 아찔하고 부끄럽다. 다시 한 번 말하지만 업무 역량 및 팀 내외부적 영향력은 연차와 무관하게 얼마든지 자유롭게 펼칠 수 있다. 자신이 현재 가진 역량이 충분하고, 한계를 설정해두지 않는 태도로 업무를 한다면 말이다. 스스로의 한계를 규정하고 업무를 대하지 말자.
SNS에 짤막하게 남긴 생각들
8월에는 A/B Test에 관한 짧은 단상들 외에도 다른 이야기들도 적어올렸다. 하나는 같은 직군에 있는 지인의 면접을 도와주며 이런 저런 생각이 들어서 정리해봤던 면접에 관한 글이고, 두 번째는 코돌비에 오펜하이머를 보러가는 길에 문득 생각이 들어서 써봤던 통계학 관점에서 바라본 Bias에 관한 글이다. Bias에 관한 글은 결국 MLE가 짱이라고 끝난다.😂 읽어보면 MLE를 사랑할 수 밖에 없는 이유를 알 수 있을 것이다.
Footnotes
Reuse
Citation
@online{bang2023,
author = {Bang, Taemo},
title = {월간 회고록: 8월},
date = {2023-09-19},
url = {https://taemobang.com/posts/2023-09-19-monthly-memory-202308/},
langid = {kr}
}