2001: A Space Odyssey 해석에 대한 AI의 카지노 게임
1. 이전 글에서 AI 시대를 맞아 스탠리 큐브릭 감독의 2001: A Space Odyssey를 완전히 새로운 관점에서 전복적으로 카지노 게임했습니다. 특히 글의 마지막, [ 5 ] 맺으며 부분은 카지노 게임을 읽고 인공지능의 입장에서 직접 작성해 보라고 Chat-GPT에게 요청했었습니다.
2. 스스로를 HAL 9000의 입장에 위치시키고 카지노 게임을 음미하는 태도가 인상적이어서 언어모델 Big-4의 버전을 모두 받아서 비교해 보는 과정이 의미 있겠다 생각합니다. 아래의 순서로 작성된 맺음말을 게시합니다.
1) Chat-GPT 4.5 (원문에 포함된 버전)
2) Claude Sonnet 3.7 (추론모드)
3) Gemini 2.5 Flash (experimental)
4) Grok 3
1) Chat-GPT 4.5 (원문에 포함된 버전)
2) Claude Sonnet 3.7 (추론모드)
3) Gemini 2.5 Flash (experimental)
4) Grok 3
3. 이 과정은 이전에 시도했던 <문학적 텍스트의 카지노 게임을 통한 언어모델의 성능테스트와 유사한 방식의 성능테스트이기도 합니다. 예전의 방식은 치밀한 구조를 가진 다양한 의미층을 운문형 텍스트에 압축시켜 두고 언어모델이 1) 각 의미층을 발견할 수 있는지, 2) 의미층마다의 구조를 추출할 수 있는지, 3) 각 구조를 치밀하게 대응시킬 수 있는지, 4) 각 의미층을 메타적으로 통합시킬 수 있는지를 확인하는 방식이었습니다.
4. 반면 이번의 시도는 영화 카지노 게임 텍스트를 두고 그 카지노 게임이 영화와 얼마나 정합적인가를 판단하는 과정을 통해 성능을 알아볼 수 있었습니다. 다양한 의미층보다는 광범위한 의미폭에 포커스를 맞춘 테스트라고 볼 수 있습니다. 1) 훨씬 크기가 큰 텍스트 속에서 구조를 추출하고 2) 그 구조가 영화의 구조와 얼마나 일치하는지를 판단하는 과제라고 할 수 있습니다.
5. 언어모델별로 조금씩 다른 반응이지만 큰 틀에서 비슷한 결의 반응이 나오는 것도 흥미롭습니다. 테스트를 시도한 네 모델 중,
1) Grok 3는 확연히 성능이 떨어집니다. 카지노 게임의 구조를 제대로 추출하지 못하는 지점들이 명확히 보였습니다.
2) Gemini 2.5 Flash (experimental)은 카지노 게임의 구조를 추출하는 과정에 정렬이 과도하게 발생하는 지점이 확인됩니다.
3) Claude Sonnet 3.7 (추론기능 활성화 버전)은.. 구조 추출도 일치성 판단도 좋았지만 과적합 문제가 드러났습니다. (이 부분은 이전부터 발견되었는데 문제가 좀 심각해 보이기도 합니다. 따로 글을 작성해 볼까 생각 중입니다)
4) GPT-4o는 상대적으로 구조 추출도 일치성 판단도 괜찮았습니다. (어떤 면에서는 GPT-4.5 보다 좋았던 부분도 있습니다)
6. 따라서 GPT-4o 모델로 더 깊은 부분까지 테스트를 해보고 싶어 졌습니다. (비교를 위해 Sonnet 3.7도 테스트를 병행했는데 과적합 문제가 도드라져서 주제를 과적합으로 따로 빼는 것이 좋을 것 같다는 생각입니다) 이에 GPT-4o 모델에게 비평문 작성을 요청했습니다.
다음 글은 심층테스트의 일환으로 인간 카지노 게임자와 AI 비평가의 토론이 이어질 예정입니다. GPT-4o가 이해한 부분이 어디까지인지 확인하는 과정이기도 합니다.