2026 유튜브 쇼츠 알고리즘과 멀티모달

2편에서 롱폼 알고리즘의 4가지 핵심 요소를 살펴봤다. 이번 편에서는 쇼츠 알고리즘의 핵심 요소와, 이 정교한 알고리즘을 가능하게 만든 기술적 배경을 다룬다.

쇼츠 알고리즘

쇼츠는 롱폼과 달리 시청자를 더 넓게 묶고, 그에 맞는 기호를 대략적으로 빨리 만족시켜주는 것이 목표다. 비유하자면, 재미있는 장난감을 내놓고 싼 가격으로 산 사람이 잠깐이지만 크게 만족감을 느끼게 하는 것이다.

쇼츠 알고리즘은 대략 4가지 요소가 핵심이다.

1. 조회 대 스와이프 비율 (Stayed to Watch)

처음 약 1~3초 이상을 머무는지 아닌지를 보는 비율이다. 이것은 유튜브 스튜디오에서 “Stayed to watch(시청 선택 비율)”로 확인할 수 있는 지표이며, 이것은 리텐션 커브와는 다른 별개의 “관문(gate)” 지표다.

쇼츠를 시청하는 시청자의 약 30%가 피드를 통해 영상을 시청한다. 피드에서는 이 첫 1~3초가 ‘썸네일’ 역할을 한다고 보면 된다.

2. 썸네일과 제목

2025년부터 예상과 다르게 쇼츠 트래픽의 60~70% 이상이 탐색(Browse) 기능에서 발생하고 있다. ppc.land의 Mario Joos(MrBeast 등 1억 구독 채널의 리텐션 디렉터)가 1,000개 이상의 채널 데이터를 분석한 결과, 2025년 하반기부터 홈화면 UI 변경으로 쇼츠의 Browse 트래픽이 급증했다. 홈화면에서 쇼츠의 첫 페이지 차지율이 크게 늘어났으며, Reddit에서도 크리에이터들이 “Browse features가 60% 이상”이라고 보고하고 있다.

이처럼 이제 쇼츠의 썸네일과 제목도 그 중요도가 롱폼 수준으로 올라왔다고 봐도 무방하다. 솔직히 지금은 오히려 3초 후킹보다 쇼츠 썸네일과 제목이 더 중요하다고 본다.

3. 평균 시청 지속 시간 (APV / AVD)

평균 시청 지속 시간은 내 쇼츠를 본 사람들이 평균적으로 몇 초 정도 봤는가를 보여주는 지표다. 유튜브 공식 크리에이터 가이드에서도 평균 시청 지속 시간(AVD)과 평균 시청 비율(APV)을 랭킹 시그널로 사용한다고 명시하고 있다.

이 지표가 높다는 것은 사람들이 오래 봤다는 뜻이고, 만족감을 느꼈을 확률이 높다는 뜻이다. 업계에서 일반적으로 통용되는 기준은 70% 이상이 우수, 80% 이상이 탑 퍼포머로 알려져 있다. 다만 유튜브가 공식적으로 구체적 임계치를 공개한 적은 없으므로 참고 수준으로 보면 된다.

4. 공유 수

공유 수는 단순히 좋아요보다 더 높은 만족도 지표로 사용된다. nebulaodyssey.com에서는 “Shares are now 10x comments(공유는 댓글의 10배 가치)”라고 표현하고 있고, vloglikepro.com에서도 참여 신호 가치 순서를 Shares > Saves > 재시청 > Comments > Likes 순으로 제시한다.

좋아요는 자신의 심정을 표현하는 것이지만, 공유는 타인에게 시청을 유도하는 효과를 가진다. 공유를 했다는 것 자체가 그 내용이 충분히 가치 있다는 신호다. 타인이 공유된 영상을 통해 유튜브에 랜딩하면, 유튜브 안에서 시청을 계속하며 머물게 된다. 유튜브 입장에서는 새로운 시청자를 확보하는 수단이 되는 것이다.

이것이 롱폼과 다른 점은, 롱폼은 니치(Niche)에 적합한 만족도를 올리는 데 초점이 맞춰져 있다는 것이다. 반면 쇼츠는 니치보다 더 넓은 타깃에게 도달하는 것을 목적으로 한다.

chatgpt image 2026년 4월 23일 오후 09 01 05

이런 알고리즘이 가능한 이유: 멀티모달 AI

구글 제미나이(Gemini)를 써본 적이 있는가? 제미나이에 영상을 넣으면 영상의 내용과 상황을 정확히 인지해서 요약해준다.

이것이 가능한 이유는 멀티모달 분석 때문이다. 멀티모달이란 텍스트만 읽는 게 아니라 이미지나 음성 같은 정보도 함께 처리할 수 있는 AI라는 뜻이다.

유튜브에서도 이 멀티모달이 적용되고 있다.

“YouTube doesn’t just read your title — it watches your video.” 음성(Speech), 시각적 요소(Visuals), 화면 텍스트(Text on screen), 음악과 효과음, 편집 패턴과 페이싱까지 분석한다.

Medium의 Ayesha Razzaq도 이렇게 정리한다: “유튜브는 이제 고급 AI 시스템으로 영상을 프레임 단위로 분석하고, 말하는 내용을 듣고, 화면 텍스트를 읽고, 시각적 요소, 페이싱, 톤, 감정, 심지어 의도까지 파악한다.”

그 말은 예전처럼 ‘제목, 설명글, 태그’에 의존하여 영상을 분류하던 방식이 더 이상 통하지 않는다는 것이다.

전략적으로 보면 이렇다.

제목은 후킹의 역할 그 이상 그 이하도 아니게 되었다.
설명글은 내용의 보충 설명 역할 외에는 하지 않는다.
태그는 입력하지 않아도 된다.

또한 구글은 SynthID 워터마크 감지 기술을 보유하고 있으며, AI 생성 콘텐츠 라벨링을 요구하고 있다. 멀티모달 분석이 진정성 파악에도 활용될 수 있는 기술적 기반은 이미 갖추어진 셈이다.

chatgpt image 2026년 4월 23일 오후 09 07 45

마트 비유로 이해하기

마트에 갔는데 원하는 물건이 바로 앞에 있다. 사서 집에 갔는데 물건도 너무 좋았다면? 다시 그 마트로 향하게 된다.

그런데 하나라도 어긋나면 불만을 느낀다. 원하는 물건이 찾기 어렵다면? 빨리 찾았는데 하루 만에 고장 났다면? 둘 중 하나라도 안 되면 재방문하지 않는다.

인스타그램에서 짧게 재미만을 위한 숏폼이 대성할 수 있지만, 유튜브는 ‘시간이 아깝다’고 느끼게 하는 영상을 지양한다. 멀티모달 분석 덕분에 특정 종류의 사람들에게 특정 분야의 콘텐츠를 거의 정확하게 전달할 수 있게 되었고, 유튜브는 이제 니치 콘텐츠에 유리한 구조가 되었다.

유튜브가 시청자에 대해 아는 것들

유튜브는 오랜 기간 시청자 데이터를 모아왔기 때문에 시청자가 원하는 것을 명확히 찾아낸다. 기본적으로 아래 데이터를 활용한다.

과거 시청 이력
검색 기록
비슷한 시청자 그룹의 반응
클릭률(CTR)
시청 시간 / 유지율
좋아요 / 싫어요 / “관심 없음”
설문 기반 만족도
주제 적합성, 최근성
시간대, 기기 유형, 위치 (vloglikepro.com에 따르면 2026년에는 같은 사람에게도 아침과 밤에 다른 콘텐츠를 추천한다)

결국 시청자는 스스로도 모르는 자신의 갈대 같은 마음을 행동으로 노출하고, 유튜브는 그것을 바탕으로 시청자의 심리를 들여다보는 것이다.

다음 편(마지막 편)에서는 알고리즘에 대한 오해들을 팩트 체크하고, 최종 전략을 정리한다.