AI가 학습한다는 말, 사실 많이 들어봤지만 정확히 뭐가 어떻게 된다는 걸까?
정답이 있는 데이터를 반복해서 보여주면서, 맞추는 방법을 점점 더 잘 익히게 만드는 것이다.
예시) 우린 ‘고양이’를 어떻게 배웠을까?
우리가 처음 고양이를 봤을 때는 그게 고양이인지 몰랐다.
- “이게 고양이야”라고 누군가 알려줬고
- 다음에 또 비슷한 걸 봤을 때, “아 이건 고양이 아니야”라고 알려줬고
- 그렇게 계속 보여주면서 "고양이는 귀가 뾰족하고, 몸은 작고, 소리는 야옹 하고…"이런 특징들이 머릿속에 쌓이기 시작한다.
→ 그 다음부터는 “이건 고양이 / 이건 강아지”를 점점 더 잘 맞추게 된 것이다.
AI 모델도 똑같다.
데이터(입력)와 정답(출력)을 쌍으로 넣고,
그걸 계속 반복해서 보면서, 어떤 입력에 어떤 출력을 내야 하는지를 배워나가는 과정이 바로 "학습"이다.
기획자의 시선
☞ 지금 보고 있는 모델은 무엇을 입력으로 받고, 무엇을 출력하는가?
→ 서비스 흐름에서 이 구조를 명확히 정리할 수 있어야 한다.
☞모델이 학습한 경험은 어떤 데이터 쌍(입력/출력)에서 나왔는가?
→ 내가 다루는 도메인과 얼마나 유사한지 확인이 필요할 수도 있다.
☞내가 기획하는 기능은 패턴을 카지노 게임하면 예측 가능한 문제인가?
→ 예측할 수 있는 문제라면, 학습을 적용해 볼 수 있다.
☞“이건 머신러닝으로 할 수 있나?” 질문이 들리면
“입력과 정답이 반복될 수 있는 구조인가?”를 먼저 따져봐야 한다.
지도카지노 게임은정답이 있는 문제를 학습하는 방식이다.
예를 들어 이메일이 스팸인지 아닌지를 분류하고 싶다면,“이 이메일은 스팸이다”라는 정답을 함께 주고 학습시켜야 한다.
모델은 이 데이터를 반복해서 보면서“이런 제목과 이런 내용이 있으면 스팸일 확률이 높구나”라고 판단하게 된다.
반면, 비지도카지노 게임은 정답이 없다.그냥 데이터를 쭉 보여주고, 그 안에서 스스로 패턴을 찾아내는 방식이다.
예를 들어 고객의 구매 데이터를 보고 “이 고객들은 행동이 비슷한 것 같아”라고 묶어주는 것이다. (이 묶음을 군집 또는 클러스터 라고 함)
정답이 없기 때문에, 틀렸다 맞았다를 계산하는 게 아니라“묶인 게 얼마나 자연스러워 보이냐”를 평가한다.
기획자의 시선
☞내가 기획하는 문제에는 정답(label)이 존재하는가? 아니면,유사성 기반으로 그룹만 나누고 싶은가?
- 기획 시점에 이걸 구분할 줄 알아야, 개발자와 ‘이 문제에 맞는 모델은 어떤 구조냐’는 논의를 할 수 있다.
Loss는 말 그대로 “얼마나 틀렸는지”를 숫자로 나타낸 값이다. (몇 개 중에 몇 개 틀렸는지!)
예를 들어, 고양이 사진을 보여줬는데 모델이 강아지라고 예측했다면, 이때 Loss 값은 높아진다.반대로 정확하게 고양이라고 예측했다면 Loss는 낮아진다.
모델은 학습할 때마다 이 Loss 값을 계산한다.그리고 “이번에는 조금 틀렸구나. 그럼 다음엔 어떻게 예측하면 더 정확할까?”를 고민하면서내부 구조(가중치)를 계속 바꾼다.
이 과정을 수천 번 반복하면서 점점 더 똑똑해지는 것이다.
비지도카지노 게임은 정답이 없기 때문에Loss처럼 “틀렸는지 맞았는지”를 평가할 수는 없다.대신 모델은 “비슷한 건 더 가깝게, 다른 건 멀게”라는 기준으로 데이터를 나눈다.
예를 들어, 쇼핑몰 고객들의 행동 데이터를 보면
- 어떤 사람은 캠핑용품을 주로 보고,
- 다른 사람은 뷰티 제품만 본다.
이럴 때 AI는 “행동이 비슷한 사람들끼리 그룹(클러스터)을 만들자”라고생각하는 것이다.
그럼 어떻게 이 그룹이 잘 나눠졌는지 평가할까?여기서 나오는 개념이 실루엣 점수다.
실루엣 점수는 “같은 그룹 안에서는 서로 얼마나 가까운지”,그리고 “다른 그룹과는 얼마나 멀리 떨어져 있는지”를 종합해서 계산하고, 평가한다.
그럼 실루엣 점수가 높게 나오면끝일까?
난 이렇게 생각했었다.
“AI가 실루엣 점수를 계산해서 그룹을 만들었고, 점수도 높게 나왔으면,,, 이게 최선 아닌가?”
그런데 이건 반쯤만 맞는 말이었다.
왜냐하면, 모델이 사용하는 실루엣 점수는“주어진 조건 안에서의 최선”이기 때문이다.
조건이 바뀌면? 결과도 바뀔 수 있다.
예시) 모델이 처음에 고객을 3개 그룹으로 나눴다고 치자.
- 그랬더니 실루엣 점수가 0.72로 꽤 괜찮게 나왔다.
- 그런데 마케팅 팀에서3개는 너무 뭉뚱그려졌으니 더 세밀하게 나눠야 액션을 정할 수 있다고 한다.
- 그래서 군집 수를 5개로 바꿔서 다시 모델을 돌렸더니실루엣 점수는 0.69로 살짝 떨어졌지만,
- 각 그룹의 특성이 훨씬 명확해져 실제 마케팅 전략에 적용하기 좋게 되었다!
이렇게 조건을 바꾸고, 반복해서 실험해 보는게기획자나 데이터 분석가의 역할이다.
(추가 메모) 비지도카지노 게임에서도 “Loss"처럼 줄여가는 기준이 있다.
비지도카지노 게임에서도 "Loss-like"한 수치를 계산하긴 한다.
예를 들어 K-means라는 클러스터링 알고리즘은 이런 식이다.
1)각 데이터를 임의의 중심(중심점) 근처로 분류
2)데이터와 중심점 간의 거리의 합을 계산
3) 그 합이 줄어들도록 중심점 위치를 계속 조정
→ 이 거리의 합 = 일종의 Loss 역할 (비슷하지만 정답 기반은 아님)
기획자의 시선
☞정답이 없기 때문에, 평가 기준이 다르다.
→ 실루엣 점수는 그냥 하나의 기준일 뿐, 비즈니스 관점에선 다를 수 있다.
☞점수가 높아도 업무에 안 맞는 그룹이면 의미 없다.
→ 실제로 이 클러스터를 쓸 수 있는가? 가더 중요함...
☞ 클러스터수, 기준 데이터, 거리 계산 방식 같은 요소는 기획자나 분석가가 실험과 해석을 통해 반복적으로 조정해야 한다.
☞실무에선 “실루엣 점수는 괜찮지만 우리가 쓰기엔 별로”라는 말이 나올 수 있음
→ 이 간극을 좁히는 것이 AI 시대의 기획자 역할일 수 있다.
정답은 “상황에 따라 다르다”
어떤 뉴스 추천 서비스는 매일 밤 00시를 기준으로데이터를 모아서 새로 학습할 수도 있다.
오늘 본 유저 행동을 반영해서내일 아침엔 더 나은 추천을 제공할 수 있게 해주는 방식인 것이다.
반면에 실시간 광고 시스템처럼클릭이 일어나는 즉시 그 데이터를 반영해서광고를 조정해야 하는 경우엔 실시간 카지노 게임이 필요할 수 있다.
즉, 새로운 데이터가 들어올 때마다모델이 실시간으로 조금씩 업데이트되는 구조이다.
기획자의 시선
☞모델이 얼마나 자주 갱신되는지알아야 한다.
- 유저 행동이 빠르게 바뀌는 서비스라면,배치 주기나 실시간 반영 구조가 맞는지 검토해야 함
☞모델 갱신 주기는 전략적인 선택 포인트가 될 수 있다.
- 예) “추천 정확도를 높이려면 이 모델은 최소 하루에 한 번은 업데이트 돼야 해요”
☞실시간 카지노 게임이 필요할 경우, 시스템 복잡도나 인프라 이슈도 고려해야 한다.
☞기획자는 “실시간이어야만 좋다”가 아니라,“지금 문제에 이 정도 업데이트 주기가 적절한가?”를 판단해야 함