딥시크, 딥리서치 그리고, 온라인 카지노 게임
딥시크, 딥리서치등 최근에 많은 생성형AI 모델들이 쏟아지면서, (늘 그렇듯) 이들 모델의 생성물들이 전문가를 뛰어넘었다느니, 특히, 연구자들 일자리가 없어진다던지, AGI가 왔다느니 하는 등과 같은 유언비어(?)를 퍼트리기에 짧게 정리하고 간다. 우선, AGI에 대해서는 내가 이전 남긴 글이 있으니 참고하길 바라고,
요즘 향상된 생성형 AI에 성능에 대해서 한마디만 이야기 하자면, 아무리 생성형 AI가 발전하더라고, 해당 분야의 소위, 박사 혹은 교수로 별칭되는 수준의 전문가들(여기서 말하는 전문가라 함은 계급장만 박사, 교수가 아니라 실제로 제대로 된 연구를 하고 실적을 내는 전문가를 의미함)은 절대로 넘어 설수 없다.
누군가 내게 어떻게 장담할 수 있냐고 반론을 제기하는 이도 있을 것이다. 하지만, 전문가 수준의 생성형AI의 수준을 어떻게 평가하는지에 대한 방법론에 대해서 조금만 이해를 하고 있다면, 내 말이 과장이 아니라는 것을 쉽게 파악할 것이다. 무슨 말인지 이해가 안되나?그렇다면, 다음 질문에 대답해보길 바란다.
전문가 수준의 답을 내어 놓은 생성형온라인 카지노 게임를 누가 평가하나?
정답은 바로 "사람이 평가 한다"이다. 그것도, 한 명이 아닌 다수의 사람들이 평가 한다. 이를 유식한 표현으로 RLHF(Reinforcement Learning from Human Feedback)라고 한다. 하지만, 해당 내용이 전문적이면 전문적일수록 관련 분야를 직접 다루지 않는 (준)전문가의 답이 정답에서 벗어날 가능성은 기하 급수적으로 증가한다. 그리고, 분야가 전문적일 수록 그에 대한 평가를 할 수 있는 "다수"의 전문가를 구하는 것 또한 현실적으로 불가능하다.
실제 생성형AI를 평가하는 대부분의 평가 방법은 사회 과학자들이 만들어 놓은 온라인 카지노 게임을 평가하는 방법론(IQ나 EQ도 이러한 다양한 평가 방법들중 하나)을 가지고 생성형AI를 평가한다. 애석하게도 이렇게 사회 과학자들이 만든 평가방식은 자연 과학이나 공학에 비해, 매우 비과학적이고 정성적(qualitative)이다. 특히, 생성형AI의 전문성을 평가하는 방식은 사회 과학에서 온라인 카지노 게임의 전문성을 평가하는 방식을 벗어나지 않는다. 기본적으로, 온라인 카지노 게임이 질문지(혹은 평가지)를 만들고, 생성형AI가 만든 답변 내용을 해당 분야 전문가 온라인 카지노 게임(human)들이 맞는지 판단하는게 현재 생성형AI의 성능을 판단하는 방식이다.
하지만, 특정 전문 분야의 진짜 연구자들이 AI성능을 향상시키기 위해 피드백을 주고 하는 일에 참여하는 경우가 얼마나 될까? 해당 분야의 진짜 연구자들은 자기 일하기 바쁜 경우가 대부분이고, 생성형AI 성능 향상에 그닥 관심이 없다 (물론, 있으면 쓰기는 하겠지). 결국 생성형AI에 온라인 카지노 게임 피드백을 주는 대부분 인력은 해당 분야의 진짜 연구자들이 아니라 해당 분야를 일반인들 보다는 조금더 아는 수준의 인력들이 피드백을 줄수 밖에 없고, 이렇게 주어진 답변을 기반으로 생성형AI가 발전할 수 밖에 없다. 그러니, 그러한 전문성에 대한 생성형AI는 아무리 발전하더라도 그 한계가 존재할 수밖에 없고.
그래서, 결론은? 다시 한번 말하지만, 생성형AI가 아무리 발전 하더라도 제대로 된 연구자의 수준은 절대로 넘어설 수 없다. 적어도 지금의 평가 방식에서는 판단 자체가 무의미 하다. 하지만, 화려한 정치질로 논문을 써왔거나, 본인의 전문성은 없으면서 이것 저것 짜깁기로 연구랍시고 해왔던 사짜 연구자들(특히, 인문 사회, 예술 분야의 연구자(?)들)에게는 근래의 생성형AI의 발전이 커다란 위협으로다가 올 수다.이런 사짜 전문가들이그나마 생성형AI를 사용할 줄 안다면, 자신의 계급장을 조금더 연명할 수는 있겠지만 말이다.