칼럼 | AI는 생각보다 멍청하다
이 벤치마크는 챗봇이 동일한 질문을 100번 던지고 얼마나 일관된 답변을 제공하는지를 확인한다. 더 자신감 있는 모델은 일관되게 같은 대답을 할 것이라고 가정한다. 질문은 이전에 오픈AI의 GPT-4 기반 모델들에 어려움을 준 사례를 바탕으로 선별됐다. 특정 질문을 선별했기 때문에 낮은 정확도 점수는 모델의 전반적인 성능을 평가하는 것이 아니라, 특히 어려운 질문에서 모델의 성과를 나타낸다. SAT와 유사하게, 심플QA는…

