지금 보시고 있는 건 수많은 LLM 모델 지도입니다. 춘추 전국 시대처럼 수많은 모델들이 난립하고 있죠
사실 AI리곤 하지만 그중 LLM은 우리말을 잘 이해하고 잘 대답해 준다라고 설명 하곤 합니다.
그리 맘에 드는 설명은 아니지만 굉장히 직관적이죠 하지만 실제로 이해하는 게 아니라고요?
그럼 대체 어떤 방식으로 우리에게 답변을 주는 걸까요?
이번글에서는 공부를 하는데 앞서 우리가 활용할 LLM에 대해서 우리는 이해를 하고 출발해 봅시다
우선 LLM은 위와 같은 구조로 설명할 수 있습니다. 조금 더 정의적으로 접근해 보면 대규모 언어 모델(LLM)은 자연어 처리(NLP)에서의 기술의 일종입니다. 뭐 이런저런 말을 많지만 정의를 보면
"수백억에서 수조 개의 파라미터를 가진 언어특화 인공지능 모델"
이정의가 가장 직관적이 더군요 LLM은 텍스트 데이터를 학습하여 인간 언어를 이해하고 생성하는 데
우리는 이에 특화되어 있는 모델로 이를 기반으로 글을 쓰거나 공부를 하는데 활용하고 있는 거죠.
물론 글을 이해한다는 표현을 사용하는 분들도 계시지만 사실 LLM은 글을 이해하는 게 아닙니다. "이해(Understand)"를 하는 것이 아니라, "패턴 학습(Pattern Recognition)"을 한다는 말을 사용하는 게 좀 더 정확합니다.
이를 기반으로 입력된 데이터를 수학적 계산을 통해 처리하여 가장 가능성 있는 출력을 생하고 패턴 분석(Pattern Analysis) 또는 맥락 추론(Contextual Inference)이라는 방법론이 적절하겠네요
다음에 올 말이 어떤 게 가장 적절한가를 맞춰준다는 것이지요 작동원리를 보며 가봅시다.
앞서 말했듯이 LLM은 텍스트를 "이해(Understand)"하는 대신, "패턴 학습(Pattern Recognition)"과 "맥락 추론(Contextual Inference)"을 통해 동작합니다. 이는 입력된 데이터를 바탕으로 통계적으로 가장 적합한 출력을 생성하는 방식으로, 인간이 텍스트를 해석하는 것과는 근본적으로 다르다 볼 수 있죠.
구체적으로, LLM의 작동 원리는 Transformer 아키텍처를 기반으로 합니다.이 구조는 Self-Attention 메커니즘을 통해 텍스트 내 각 단어 간의 관계를 학습하며, 이를 다층 구조에서 반복적으로 적용하여 복잡한 언어 패턴과 문맥을 포착합니다. 또한, 대규모 학습 데이터를 활용하여 일반적인 언어 모델을 학습한 후, 이를 특정 도메인에 맞게 조정(Fine-tuning)하거나 새로운 과제에 적응(Transfer Learning)하는 방식으로 설계되어 있죠 과정을 봐볼까요?
지금 모시고있것 중 GPT는 디코도 온니라고 표현하는 구조를 사용합니다. 입력 데이터를 처리하여 문맥을 이해한 후, 다음에 올 단어를 예측해 텍스트를 생성하는 데 중점을 두는 모델인데 구글의 BERT가 인코더 GPT는 디코더의 방향성이죠 사실 뭐 이것만 설명해도 한 바닥은 가지만 우선 은 가장 단순하게 접근해 봅시다
입력된 텍스트를 개별 단어 또는 서브워드 단위로 분리하여 숫자로 변환합니다.
예를 들어, "안녕하세요"라는 문장은 서브워드 단위로 분리하면
["안", "녕", "하", "세", "요"]와 같은 토큰으로 변환될 수 있습니다.
영어로 봐볼까요? 가장 널리 사용되는 "Hello, world!"를 가지고 놀아보죠
["Hel", "##lo", ", ", "wo", "##rld", "!"]로 구분카지노 가입 쿠폰 것이죠
사실 이 과정에서 회귀 단 어처리, 메모리 효율성, 일반화 가능성 등등의 다양한 고려사항이 적용되지만
핵심은 이러한 과정은 모델이 텍스트를 처리할 수 있는 형태로 변환하는 첫 단계임을 이해하시면 됩니다,
컴퓨터 에서의 이진수 즉 이해할 수 있는 형태로 변환하고 텍스트 데이터를 수학적으로 이해하고 처리할 수 있게 만드는 것이죠.
임베딩은토큰화된 데이터를 고차원 벡터로 변환카지노 가입 쿠폰 과정입니다.
예를 들어 "안녕하세요"라는 문장은 서브워드 단위로 분리된 토큰인 ["안", "녕", "하", "세", "요"]가 각각 수치 벡터로 매핑되어 고차원 공간에 표현카지노 가입 쿠폰 거죠 변환하면[102, 455, 332, 678, 120]처럼 표현카지노 가입 쿠폰 것이죠 "Hello, world!" 같은 경우는 [2041, 4132, 101, 4031, 2213, 102]에 매핑카지노 가입 쿠폰 것이고요
사실 이는 방정식화를 하신다고 보셔도 될 겁니다. 언어의 맥락과 유사성을 추론하려면 어느 정도 기준이 있어야 하고 이걸 수식화해서 계산하는 것이 가장 효율적이니까요 실제로 고차원 벡터 공간에서 유사한 의미를 가진 단어들은 서로 가까운 위치에 배치한다 이해하시면 됩니다.
자 이전 우리는 이 모델에게 줄 입력을 만들었습니다.
이제 GPT는 이 데이터를 여러 계층으로 처리합니다.정의를 봐보면
"Transformer 구조에서는 Self-Attention 메커니즘과 피드포워드 네트워크를 통해 각 계층에서 데이터의 패턴과 관계를 학습한다."
머리가 아프죠? 하나하나 다뤄 봅시다
입력 데이터의 각 단어가 문맥에서 다른 단어와 어떤 관계를 가지는지 평가카지노 가입 쿠폰 메커니즘
사실 이 메커니즘은 단어 간의 상호작용을 통해 문맥 정보를 학습카지노 가입 쿠폰 걸 목적으로 합니다, 중요한 단어에 더 높은 가중치를 부여카지노 가입 쿠폰 것이죠. 예를 들어, 문장에서 "안녕하세요"라는 단어는 그 주변 단어와의 관계를 평가해 적절한 의미를 추론합니다. 핵심은 인사말인 안녕이라는 것처럼요
Self-Attention의 출력값을 추가로 변환하고 정제카지노 가입 쿠폰 과정입니다.
이 단계에서는 비선형 활성화 함수와 매트릭스 연산을 통해 데이터의 표현력을 더욱 풍부하게 만든다.
이렇게 표현하지만, 실제로는 입력 데이터를 여러 수학적 연산과 활성화 함수에 통과시켜 적합한 출력을 생성하는 방식이라고 이해하시면 됩니다. 즉, Self-Attention의 결과를 활용해 피드포워드 네트워크가 데이터를 보완하고 강화하는 단계죠.Self-Attention만으로는 부족하니까 최종적으로 보다 자연스러운 답변을 생성하는 게 목표인 과정이라 이해하시면 좋겠네요.그 과정에서 계층학습이라는 개념도 등장하지만 중요한 건 아니니까 일단 넘어갑시다.
최종 계층에서 얻어진 데이터를 기반으로 가장 적합한 단어를 선택하고 출력카지노 가입 쿠폰 단계입니다.
이렇게 정의하지만 결국 이 과정은 모델이 학습한 패턴을 활용해 입력에 따라 자연스러운 텍스트를 생성하는 결과치를 내놓는 겁니다.
결론적으로, LLM은 "패턴을 학습하고 생성한다"는 점에서 인간과 유사해 보일 수 있으나, 실제로는 텍스트 데이터를 수학적으로 처리하고 확률적으로 예측하는 기계적 모델이라 이해하시면 됩니다.
사실 LLM을 공부하거나 활용하기 위해서 원리를 공부한 이유는 한 가지입니다.
이글의 핵심이라 생각합니다. 사실 애초에 영어기반으로 만들어진 AI니 당연한 거 아니냐라 말씀하시면 할 말은 없지만 실제로 영어로 질문카지노 가입 쿠폰 것이 훨씬 더 완성도 높은 답변을 주는 이유에 대해 이야기해보자는 거죠.
실제로 한글은 음절 기반 분할로 인해 같은 문장도 영어보다 훨씬 더 많은 토큰을 생성합니다.
예를 들어, "안녕하세요"는 5개의 토큰으로 분할되지만, "Hello"는 2개의 서브워드 토큰으로 처리됩니다.
결국 영어를 써야 좀 더 효율적인 연산이 가능하고 실제로 공학도 국문보다는 영문이 공부하기 편한 게 사실이고요
좋습니다 토큰이 그렇게 중요하다면 어떤 명령을 내리냐 이것도 중요하겠죠? 이해하는데도 토큰을 먹으니까요 다음글에서는 프롬프트 엔지니어링에 대해서 다뤄보죠
본글의 프롬포트입니다.
참고문헌
[1] Deep Learning Bible - 3. Natural Language Processing - 한글
[2] 애플경제-생성 AI의 기반 LLM, 학습기법 끝없이 진화
[3] 카이스트-생성형 인공지능의 부상에 따른 경제·사회적 임팩트와 이슈