You can make anything
by writing

C.S.Lewis

by RoyaltyProgram Jan 09. 2025

카지노 게임 만드는 ai 연구

arXiv:2501.03936 v1 [cs.AI] 7 Jan 2025

새로운 매거진을 시작했다. 이게 이 매거진의 첫 번째 글이 되겠다.

첫 번째 매거진에서는내가 진행하는 webpt 프로젝트에 대한 글을 쓰고 있다. 새롭게 시작한 이 매거진에서는 내가 논문을 읽고 나름대로의 전박적 요약과 재밌는 요소나 관점들에 대해 다룰 것이다. 전문적이고 원리적인 내용을 다루지는 않을 것 같고 나름대로 재미로 보는 리뷰? 정도 되겠다. 나도 내가 공부했던 내용을 다시 보고 싶은 경우가 많아서 적어본다.


첫 번째 논문은 카지노 게임Agent: Generating and Evaluating Presentations Beyond Text-to-Slides이라는제목의 논문이다. arxiv나 huggingface papers에서 찾아볼 수 있다. 대충 이 논문에서는 제목 그대로 인공지능을 활용해 PPT를 만드는 프로세스에 대한 내용이다.내가 첫 번째 매거진에서 진행하는 프로젝트와 유사하여 관심이 갔다.


논문에 대해 이야기하기 전에 배경에 대해 간단히 설명하자면

카지노 게임를 만드는 AI는 시중에 생각보다 많이 나와있다. 대표적으로 국내에서는 Gamma이 유명하고 해외에서는 popai가 대중적으로 가장 널리 알려져 있다. 이들을 써보면 알겠지만 생각보다는 나쁘진 않다. 평소 이런 인공지능의 원리가 궁금했는데 이 논문을 통해 살짝이라도 엿볼 수 있을까 싶었다.


이 논문에 대해 간단히 요약하자면 아래와 같다. (요약은 에듀렌즈를 활용했다.)



ABSTRACT


자동으로 문서에서 프레젠테이션을 생성하는 것은 내용 품질, 시각 디자인 및 구조적 일관성을 균형 있게 맞추는 도전적인 작업입니다. 기존 방법들은 주로 내용 품질 향상에 집중하여 시각 디자인과 구조적 일관성을 간과해 실용성이 제한되었습니다. 이를 해결하기 위해, PPTPPTAgent는 인간의 작업 흐름에서 영감을 받은 두 단계의 편집 기반 접근 방식을 통해 프레젠테이션 생성을 종합적으로 개선하며, PPTPPTEval 평가 프레임워크를 도입하여 생성된 프레젠테이션의 품질을 내용, 디자인 및 일관성의 세 가지 차원에서 평가합니다.


---


1 INTRODUCTION


프레젠테이션은 정보 전달에 널리 사용되는 매체로, 시각적 효과가 뛰어나지만 고품질 프레젠테이션을 만들기 위해서는 매력적인 스토리라인과 시각적으로 매력적인 레이아웃이 필요하다. 이에 따라, PPTPPTAgent라는 새로운 프레젠테이션 생성 프레임워크와 PPTPPTEval이라는 종합 평가 프레임워크를 제안하여, 참조 프레젠테이션을 기반으로 한 편집 기반 워크플로우를 통해 자동 프레젠테이션 생성을 재정의하고, 콘텐츠, 디자인, 일관성의 세 가지 차원에서 프레젠테이션 품질을 평가할 수 있도록 했다.


---


2 카지노 게임AGENT


이 섹션에서는 PPTPPTAgent의 프레젠테이션 생성 작업을 두 단계로 나누어 설명합니다. 첫 번째 단계에서는 참조 프레젠테이션의 슬라이드를 클러스터링 하고 콘텐츠 스키마를 추출하여 표현력을 향상하고, 두 번째 단계에서는 입력 문서와 분석된 참조 프레젠테이션을 기반으로 적합한 슬라이드를 선택하고 상호 편집 과정을 통해 목표 프레젠테이션을 생성합니다. PPTPPTAgent는 기존 슬라이드를 수정하는 편집 기반 생성 패러다임을 채택하여 슬라이드 요소의 정밀한 조작을 가능하게 합니다.


---


3 카지노 게임EVAL


카지노 게임카지노 게임Eval은 발표 품질을 다각적으로 평가하기 위한 포괄적인 프레임워크로, 1에서 5까지의 점수와 향후 발표 생성 방법 개선을 위한 상세한 피드백을 제공합니다. 발표 품질 평가는 콘텐츠, 디자인, 일관성의 세 가지 주요 차원에 따라 이루어지며, 각 차원은 정보의 양, 텍스트의 명확성, 시각적 지원, 디자인 원칙 준수 및 논리적 구조를 평가합니다.


---


4 EXPERIMENT


기존의 발표 데이터셋은 PDF 또는 JSON 형식으로 저장되어 의미 정보가 손실되고, 주로 학술 보고서에서 파생되어 다양성이 제한됩니다. 이를 해결하기 위해 Zenodo10K라는 새로운 데이터셋을 도입하였으며, 10,448개의 발표 자료를 수집하여 공개하였습니다. 실험 결과, 제안된 방법이 기존 방법보다 높은 성공률과 품질을 달성했으며, 카지노 게임카지노 게임Eval 메트릭을 통해 발표의 품질을 효과적으로 평가할 수 있음을 보여주었습니다.


---


5 RELATED WORKS


최근 발표된 슬라이드 생성 방법은 요소 배치 방식에 따라 규칙 기반과 템플릿 기반으로 나눌 수 있습니다. 규칙 기반 방법은 텍스트 콘텐츠 향상에 중점을 두지만 시각적 요소를 간과하여 참여도를 낮추는 반면, 템플릿 기반 방법은 미리 디자인된 템플릿에 의존하여 시각적으로 매력적인 발표를 생성하지만, 템플릿 주석에 대한 많은 수작업이 필요해 확장성과 유연성이 제한됩니다. LLMs의 활용 가능성에 대한 연구가 진행되고 있으며, 이들은 복잡한 작업을 수행하는 데 있어 유용한 도구로 자리 잡고 있습니다.


---


6 CONCLUSION


이 논문에서는 PPTPPTAgent를 소개하며, 프레젠테이션 생성을 LLM의 코드 이해 및 생성 능력을 활용한 두 단계의 편집 작업으로 개념화했습니다. 다양한 도메인에서의 실험 결과, 우리의 방법이 우수성을 입증했으며, PPTPPTEval을 통해 프레젠테이션의 평가 가능성을 보장했습니다. 이 연구는 비지도 조건에서 슬라이드를 생성하는 새로운 패러다임을 제공하고, 프레젠테이션 생성 분야의 미래 연구에 대한 새로운 통찰을 제시합니다.


---


7 LIMITATIONS


우리의 방법은 고품질 프레젠테이션을 생성하는 데 능력을 보여주지만, 보편적인 적용 가능성에 영향을 미치는 몇 가지 고유한 도전 과제가 남아 있습니다. 95% 이상의 성공률은 인상적이지만 절대적이지 않으며, 복잡한 중첩 그룹 형태를 가진 슬라이드 파싱이 일관성 있는 결과를 내는 데 장애물이 됩니다. 또한, PPTPPTAgent는 레이아웃 최적화에서 개선을 보였지만, 시각적 일관성을 높이기 위한 시각적 단서를 충분히 활용하지 못해 디자인 결함이 발생할 수 있습니다.


---


8 ETHICAL CONSIDERATIONS


Zenodo10K의 구축 과정에서 우리는 공개 API를 사용하여 데이터를 수집하였으며, 각 아티팩트의 라이선스 조건을 엄격히 준수했습니다. 수정이나 상업적 사용이 허용되지 않은 아티팩트는 필터링하여 지적 재산권을 준수하였고, 프로젝트에 참여한 모든 주석 인원은 해당 도시의 최저 임금을 초과하는 보수를 받았습니다. 이는 데이터셋 개발 과정에서 공정한 노동 관행과 윤리적 기준을 지키겠다는 우리의 의지를 반영합니다.



이 연구의 깃허브 주소에 가서 구경해 보면 알 수 있는데 우리가 아는 감마나 팝 ai에 비해서는 많이 부족한 것 같다. (링크 접속이 귀찮으신 분들을 위해 사진을 첨부함)

실제 사용하는 데모영상
카지노 게임생성된 결과물

결과물만 보면 아쉽지만 이 연구에서 제시하는 주목할 점은 분명 있다고 생각한다. 우선 먼저 우리가 기존에 아는 방식이 아니라는 점이다 영상에서 보면 알겠지만 기존 우리가 아는 카지노 게임 생성 ai처럼 텍스트나 주제를 입력받아 만드는 게 아니라 카지노 게임파일을 입력받고 카지노 게임파일을 출력으로 만든다는 것이다.

논문의 내용을 보면 작동원리는 이렇다. ppt를 입력받으면 이를 분류하고 ppt를 구성하는 여러 가지 요소를 파악하고 추가할 내용을 생성하고 이를 LLM을 활용하여 코드를 제작하고 이를 실행하여 ppt를 수정해 나가는 방식이다. 이때 입력받는 ppt는 템플릿 역할을 하는 것 같다.


템플릿을 편집하는 것이 아직은 서투른 것 같지만 우리가 원하는 템플릿을 업로드하고 그것을 기반으로 제작될 수 있는 점은 독특하고 재밌는 점인 것 같다. 개인적으로는 여기서 사용한 모델보다 claude sonnet을 사요 했다면 더 좋은 아웃풋이 있지 않았을까 싶다.


추가로 나의 다른 매거진에서도 언급했지만 나는 이런 LLm을 활용해 ppt를 편집하는 방식의 접근은 한계가 있다고 생각한다. 이 연구가 그를 더욱 선명히 보여주는 것 같다. 쉽게 말해 LLM이 ppt를 알아듣기 어렵다.


어쨌든 꽤나 재밌는 인사이트를 가진 연구였던 것 같다. 앞으로 인공지능이 발전하면 더 멋있는 것들이 나올 것 같은 기대감이 더욱 고취된 것 같다.


앞으로 더 재밌는 논문 많이 가져오겠습니다. 읽어주셔서 감사합니다 :)

브런치는 최신 브라우저에 최적화 되어있습니다.