새로운 AI 카지노 게임 추천
OPEN AI에서 새로운 논문을 하나 공개했습니다.
카지노 게임 추천 벤치마크인데요대형 언어모델(LLM)이 코딩 및 소프트웨어 엔지니어링 분야에서 눈에 띄는 성능 향상을 보이고 있고 점수가 계속 오르고 있다. 이런 말들은 많이 보셨겠지만기존 벤치마크는 주로 단편적인 프로그래밍 문제나 단위 테스트 기반의 평가에 머무르는 한계가 있었습니다.
실제로 그래서 그게 돈이 됩니까?라는 거에 제대로 된 수치보다는 이런 게 가능합니다 정도로 설명했죠, 그런데 이번 논문은 우리나라로 치면 크몽같은Upwork라는 사이트에서 실제 프리랜서들이 수행하는 작업을 지표로 삼은 겁니다.
카지노 게임 추천는 실제로 사이트에 나와있던, 1,488개의 과제를 기반으로 하며,총백만 달러에 과제가 있으며 50달러짜리 버그수정부터 프로그램 구현까지 다양한 과제가 있고 이걸 얼마나 잘 수행하느냐가 지표가 되어, 모델의 성능을 금전적 가치와 직접적으로 연계하여 평가할 수 있는 벤치마크인 것이죠
실제로 과제를 주고 성공하면 돈을 받고 실패하면 돈을 받지 못하는 일종의 점수를 돈으로 환산시켜뒀다 보셔도 됩니다.
간단한 15분 정도 걸리는 버그 수정부터 시작해, 몇 주에 걸쳐 해결하는 복잡한 버그 수정까지 다양한 난이도의 문제가 있고, 기존 애플리케이션에 새로운 기능을 추가하는 과제는 32,000카지노 게임 추천로 책정되어 있는데 이는 임의적으로 정한 기준이 아니라 실제로 사이트에 올라와 사람들에게 돈을 주고 시키는 거니 오히려 합리적이라 볼 수도 있겠네요
심지어는 리드 개발자로 일하는 SWE 매니지먼트 과제도 존재하는데, 단순히 코드 패치를 생성하는 IC SWE 과제와 달리, 소프트웨어 엔지니어링 관리자의 역할을 대신 수행하는 역할마저도 테스트한다고 합니다.
pass@1은 실제 개발 현장의 단일 제출 상황 가정 하고 과제를 한 번에 통과할 확률부터 수많은 변수를 책정한 것이죠 물론 여기 사용된 모델이 o1인건 아쉽지만 자료를 보면 Claude의3.5 Sonnet이란 모델이 가장 뛰어난 결과를 보인 것으로 확인됩니다.
다만 성공률이 30 퍼에도 미치지 못하고 매니징작업 성공률이 44.9%라니 역시 아직은 갈길이 많이 남았다고 생각합니다.
사실 O3로 안 굴렸을 리는 없고 아마 만족할만한 결과가 안 나와서 안 넣은 거 아닐까 조심스럽게 예상해 봅니다만 사실 정확하게 돈을 벌 수 있다는 걸 증명한 것만으로도 충분한 성과인 것이죠
사실 백만 달러는 저런 기업들에게 언발오줌누기 수준이라는 게 가장 큰 문제지만요 심지어 모든 과제가 Expensify 저장소와 Upwork에서 수집되었기 때문에, 평가 범위가 프리랜서 소프트웨어 엔지니어링에 국한되어 있으며 다중모달리티로 가는 현시점에 제대로 된 평가를 하기에는 좀 부족한 거 아니냐 라는 시선도 있습니다.
다만 이런 명백한 평가지표가 나왔다는 걸 흥미롭게 보는 것이죠
그런데 그거 아세요? GPT 4 SMS 23년도에 출시한 모델이고 그사이에 엄청난 모델들이 잔뜩 나왔습니다. 심지어 현행 AI 기술에서 명백한 목적성이 있는 과제가 나온다면 마음만 먹으면 점수를 끌어올리도록 개발하는 건 문제가 아니라는 점입니다.아무리 오래 걸려도 1년 내로는 이점수를 획기적으로 끌어올릴 수 있을 거라 믿고 좀 더 발전된 모델이 나오며 특이점이 오는 날이 얼마 남지 않은 것 같습니다.