
다른 사람과 함께 공동계정으로 넷플릭스를 이용하다 보면, 사용자마다 콘텐츠의 아트워크(이하 썸네일)가 다르게 나타난다는 것을 눈치챌 수 있다. 그리고 해당 썸네일은 랜덤하게 띄워지는 것이 아닌, 사용자 시청 기록 및 평가 알고리즘을 기반으로 한다.
이러한 UX기반 서비스는 넷플릭스에서 최소 2017년부터 제공되고 있었는데, 9년이 지난 현재는 동일한 서비스의 설계 방식이 어떻게 변화하였는지 알아보도록 하겠다.
[목차여기]
넷플릭스: 대다수보다는 개개인에 집중
우선 2017년, Netflix TechBlog에 올라온 글을 먼저 살펴보자.
Artwork Personalization at Netflix
Artwork is the first instance of personalizing not just what we recommend but also how we recommend.
netflixtechblog.com
넷플릭스의 목표는 사용자의 홈 화면에 가장 눈길을 끄는 이미지를 노출시켜 작품을 시청하도록 유도하는 것이다.
썸네일에는 당신이 잘 아는 배우를 강조할 수도 있고, 흥미진진한 추격씬 등을 넣을 수도 있으며, 해당 작품의 본질을 전달하는 극적인 장면을 담고 있을 수도 있다.

과거 넷플릭스의 추천 알고리즘은 MAB 슬롯머신 방식으로, 대다수의 회원에게 통용되는 단 하나의 '완벽한' 썸네일을 발견하여 적용하는 것으로 목표로 하고 있었다고 한다.
그러나 이들은 곧 취향과 선호도의 다양성을 고려할 때, 대다수보다는 개개인에게 가장 적절한 썸네일을 찾는 것이 더 낫다고 판단했다.

예를 들어 영화 <Good Will Hunting>의 썸네일을 개인화시킨다고 하면 장르에 따라 크게 두 가지로 나눠볼 수 있다.
- 로맨틱 영화 소비자에게는 연인의 모습을 담은 Image A
- 코미디 영화 소비자에게는 스탠드업 코미디언 출신인 로빈 윌리엄스 모습이 담긴 Image B
그러나 썸네일을 개인화하는 시나리오가 이렇게 명확할 수만은 없다.
썸네일 개인화에서 해결해야 할 5가지 과제
1. 닭이 먼저냐 달걀이 먼저냐
넷플릭스 측에서는 사용자 화면에 각 작품 당 '단 하나'의 썸네일만을 보여줄 수 있다.
사용자가 해당 작품을 재생하기 전까지는 이들이 제공한 썸네일이 사용자에게 유효한지 알 수 없다.
반대로 사용자가 작품을 재생하더라도 그것이 썸네일 덕분인지 아닌지도 판단하기가 어렵다.
2. 세션 간 썸네일 변경
세션마다 썸네일이 바뀌면 타이틀 인지도가 떨어질 수도 있지 않을까?
아니면 반대로 바뀐 썸네일이 사용자의 시선을 사로잡을 수 있지는 않을까?
이처럼 세션 간 썸네일 변경은 기여도 분석에 어려움이 발생할 수 있다.
3. 전체 화면 구성
화면 속 썸네일 이미지 구성이 비슷비슷하다면 페이지 전체의 매력도가 떨어질 수 있다.
그렇다고 각 썸네일을 독립적으로 볼 수만은 없기에, 페이지 속 다양한 이미지 세트를 어떻게 구성할지도 고민해야 한다.
4. 양질의 썸네일 Pool
어그로성 이미지를 지양하고, 타이틀을 잘 대표하는 동시에 매력적인 이미지 자산을 최대한 다양하게 확보해둬야 한다.
5. 렌더링 문제
넷플릭스 서비스에는 매우 많은 이미지가 사용된다.
거기에 각 자산에 대한 개인화까지 반영하려면 UI상 썸네일 이미지 렌더링이 늦어질 수 있고, 이는 곧 사용자 경험 저하로 이어진다. 그러므로 초당 수천만 건 이상의 요청을 낮은 지연 시간으로 처리해야 한다.
2017년 당시 학습 프레임워크: Contextual Bandits
사용자가 곧 'Context'이다.
일반적으로 작품당 수십 개의 후보 썸네일 이미지가 있다.
위 알고리즘은 사용자의 서비스 이용 맥락을 입력으로 삼아 어떤 이미지를 노출시킬지 결정한다.
이 과정에서 클릭 또는 시청 여부를 보상으로 삼아 학습하지만, Contextual Bandits 훈련 데이터는 학습 모델의 예측에 통제된 '무작위성'을 더한다. 이 방식을 통해 편향된 선택 성향을 보정하여 후보군 썸네일을 테스트하는 방식과 기존에 이미 검증된 썸네일을 재활용하는 방식을 균형 있게 수행한다고 한다.
그렇다면 이로부터 9년이 지난 지금은 어떻게 달라졌을까?
2026년: LLM Post-training (01.06)
Netflix Artwork Personalization via LLM Post-training
Large language models (LLMs) have demonstrated success in various applications of user recommendation and personalization across e-commerce and entertainment. On many entertainment platforms such as Netflix, users typically interact with a wide range of ti
arxiv.org
올해 1월 초에 올라온 넷플릭스 연구진 논문에 따르면, 이제는 대형 언어 모델(LLM)을 활용하여 훨씬 더 스마트하게 개인화를 진행 중이다. (그나저나 넷플릭스 연구진에 한국인 비중이 이렇게 높을 줄은 몰랐다.)
연구진 말에 따르면 메타의 Llama 3.1-8B 모델을 알리바바의 Qwen-32B 기반 학습데이터로 학습시킨 결과, 기존 넷플릭스 운영 모델 대비 3~5%의 성능 향상을 보였다고 한다.
Problem setup
[정확도 계산]
모델이 예측한 최적의 썸네일이 사용자가 이전에 선택했던 썸네일과 일치하는가?
$$\sum_{i\in\mathcal{D}^{\prime}}\frac{1}{|\mathcal{D}^{\prime}|}I\{\hat{A}^{*}(u_{i},x_{i})=a_{i}^{*}\}$$
- D': 테스트 데이터셋
- |D'|: 테스트 데이터셋에 포함된 전체 데이터(사용자-제목 쌍)의 수
- i∈D': 테스트 데이터셋 속 각 데이터 포인트를 하나씩 순회하며 계산
- I{·}: 중괄호 안 조건이 참이면 1, 거짓이면 0을 반환하는 지시 함수 (맞힌 경우 점수를 주는 형태)
- A^*(u_i, x_i): 특정 사용자(u_i)와 콘텐츠 제목(x_i)이 주어졌을 때, 모델이 예측한 최적의 썸네일
- a_i*: 사용자가 선택했던 썸네일
그러나 위 정확도 계산 수식만으로는 한계가 존재한다.
넷플릭스는 작품에 따라 썸네일 후보가 적게는 2개인 것도 있고, 많게는 40개가 넘는 것도 있다.
단순 정확도 계산으로는 이러한 난이도 차이를 구분할 수 없기 때문에, 이들은 Inverse Propensity Score (IPS) 지표를 동시에 사용하고 있다.
[IPS 적용]
$$\text{IPS} = \sum_{i \in \mathcal{D}^{\prime}} \frac{1}{|\mathcal{D}^{\prime}|} \frac{I\{\hat{A}^{*}(u_{i}, x_{i}) = a_{i}^{*}\}}{\pi(a_{i}^{*})}$$
IPS 성능 지표를 사용하면 썸네일 노출확률(π(a_i*))로 참의 값을 나누기 때문에, 낮은 확률을 뚫고 정답을 맞힌 경우에 훨씬 더 높은 점수를 부여하므로 궁극적으로는 작품들의 썸네일 자산 차이와 상관없이 공정한 평가가 가능하다고 한다.
Post-training method

| 학습 방법 | 정확도 | IPS |
| Supervised fine-tuning (SFT) | -2.55% | +2.45% |
| Direct policy optimization (DPO) | +0.91% | +2.82% |
| SFT with reasoning from Qwen-32B | +1.41% | +5.21% |
- SFT: 사용자 로그와 새로운 작품 정보가 주어졌을 때, 정답 썸네일을 텍스트로 출력하도록 모델 훈련 (일종의 강화학습)
- DPO: 긍정 예시뿐만 아니라 부정 예시까지 한 쌍으로 묶어 학습
- SFT + Reasoning: 왜 해당 썸네일이 적절한지 '이유'를 학습
실험 결과, 논리적 근거를 학습시키는 형태가 개인화 기능 향상에 가장 효과적이었다고 한다.
모델의 파라미터 수와 학습 데이터 규모는 클수록 좋다는 결론
| 파라미터 수 | 출력 형태 | 정확도 | IPS |
| 3B | 번호 | -11.55% | -6.81% |
| 텍스트 | -12.76% | -8.15% | |
| 8B | 번호 | -7.06% | -1.73% |
| 텍스트 | -6.52% | -0.19% |
3B 모델은 번호 출력에서 더 높은 정확도를 보였으나 일정 수준이 넘어가면 정확도가 0%에 수렴하는 편향문제가 있었다.
반면 8B 모델은 번호보다 텍스트 캡션 출력에서 더 높은 성능을 보인 점이 다소 아쉽지만 편향성 문제에서 3B보다 훨씬 자유로웠다고 한다.
| 학습 데이터 규모 | SFT 체크포인트 | 정확도 | IPS |
| 10K | SFT | -4.26% | +1.42% |
| SFT + 추론 | -3.73% | 0% | |
| 110K | - | -5.38% | -0.19% |
| SFT + 추론 | -3.21% | +2.82% |
모델 크기나 데이터 규모와 상관없이, SFT + 추론 과정을 포함하여 학습한 경우가 가장 높은 성능을 보였으며, 역시나 예상대로 10K보다는 110K의 대규모 데이터로 학습하였을 때 성능 개선 폭이 더 컸다.
모델 고도화 방향성
- SFT + 추론 방식 ➡️ DPO + 추론 방식
한계점: DPO 학습 시 부정적 예시의 모호함 존재
사용자가 특정 썸네일을 클릭하지 않은 이유가 '부정'의 의미인지, 아니면 시야에 닿지 않은 것인지 데이터상으로는 불분명함.
- 멀티모달 LLM으로 전환
- 썸네일 추천 서비스의 프레임워크를 다른 서비스 구성요소로 확장
넷플릭스의 최신 AI 활용 동향을 살펴보자. (01.26)
The AI Evolution of Graph Search at Netflix
From Structured Queries to Natural Language
netflixtechblog.com
넷플릭스는 방대한 콘텐츠와 사용자 데이터를 연결하기 위해 그래프 검색(DSL 기반)을 활용해 왔다고 한다.
그러나 기존 방식만으로는 '자연어'와 같은 복잡한 질의나 의미적 연결을 처리하는 것에는 한계가 있었다.
예를 들어 "90년대 미국에서 만든 로봇 관련 영화를 전부 보고 싶어."라는 요청을 처리한다고 하면...

[90년대], [미국], [로봇] 외에 누락된 키워드를 매번 채워야 하고, 이는 서버에 학습이 되지 않기 때문에 이런 번거로운 과정을 반복해야만 했다.
하지만 이제 넷플릭스는 자연어 처리가 가능한 AI를 그래프 검색에 도입하여 이러한 구시대적인 방식에서 벗어나고자 한다.
LLM을 통해 사용자의 자연어 질의를 그래프 구조에 맞는 쿼리로 변환시키고, 임베딩을 활용해 콘텐츠와 사용자 맥락을 의미적으로 연결시킬 수 있다. 또한 생성된 임베딩은 벡터로 저장되어 사용자의 다음 요청에 재활용될 수 있다.
사람들은 본래 자연어로 사고하고 행동하므로 이는 서비스 사용 경험 증진에 분명 큰 도움이 될 것이다.
근데 대체 왜...

서구권에서는 넷플릭스 최신 UI 업데이트를 놓고 마치 우리나라 카카오톡 업데이트와 같은 격한 거부 반응을 보이고 있다.

음, 운영진이 너무 썸네일 보여주기에만 집중하느라 정작 중요한 인터페이스를 놓친게 아닐까라는 생각이 든다.😅
*썸네일 출처: https://dig.watch/updates/mood-based-ai-search-tool-tested-by-netflix
'자료 분석' 카테고리의 다른 글
| [week33] 메타는 왜 Moltbook을 인수했나 (1) | 2026.03.14 |
|---|---|
| [week28-4] AlphaGenome 성과 발표 + 맞춤형 아기 (0) | 2026.01.29 |
| [week28-2] 중국의 "The Good-Enough" 전략, 그 안에 숨겨진 진짜 목적은? (0) | 2026.01.26 |
| [week26] 미래의 나로부터 온 편지 그리고.. (0) | 2026.01.04 |
| [week25] CHI 2025와 CHI EA 25 속 한국팀 (0) | 2025.12.28 |