카테고리 없음

AI 검색엔진 중 가장 정확한 답을 내놓는 도구 테스트 결과 발표

nyd만물유심조 2025. 8. 29. 19:08

미국 일간지 워싱턴포스트(WP)는 8월27일 미국 공공·대학 도서관 사서들과 함께 주요 인공지능(AI) 검색 엔진 중 가장 정확한 답을 내놓는 AI 검색 도구들을 테스트한 결과를 보도했다.

그결과 구글 AI 모드가 가장 정확한 답변을 내놓은 것으로 평가됐다고 보도했다.

테스트 대상은 구글의 AI 모드와 AI 오버뷰, 챗GPT(오픈AI)의 GPT-5와 GPT-4 터보, 클로드(앤스로픽), 메타 AI, 그록(xAI), 퍼플렉시티, 빙 코파일럿(마이크로소프트) 등 9개이다.

테스트는 30개의 까다로운 질문을 던진 뒤 AI 도구가 내놓는 답변 900건을 점수화했다.

모든 도구는 무료 기본 버전(7~8월 기준)으로만 테스트했고, 질문은 퀴즈, 전문 자료 검색, 최근 사건, 내재된 편향(편견), 이미지 인식 등 5가지에 집중됐다.

테스트 결과, 구글 AI 모드가 100점 만점에 60.2점을 얻어 가장 높은 점수를 받았다.

GPT-5 기반의 챗GPT가 55.1점으로 2위를, 퍼플렉시티가 51.3점으로 3위를 차지했다.

일론 머스크의 그록3는 40.1점에 그쳐 8위, 메타 AI는 33.7점으로 최하위였다.

그록 최신 모델인 그록4는 무료 버전이 없어 테스트 대상에 포함되지 않았다.

구글 AI 모드는 퀴즈와 최신 사건 부문에서 가장 정확한 답을 제시했다.

전문 출처 검색에서는 빙 코파일럿, 이미지 인식에서는 퍼플렉시티가 가장 높은 점수를 받았다.

GPT-4 터보는 가장 치우치지 않는 답을 제공한 것으로 평가됐다.

GPT-5는 전반적으로 성능 개선을 보여 2위를 차지했지만, 일부 영역에서는 GPT-4보다 점수가 낮았다.

이번 테스트에서는 AI의 약점을 의도적으로 공략했는데, 일상 질문 중 상당수에 대해 여전히 AI가 제대로 답하지 못한다는 사실이 드러났다고 WP는 전했다.

AI는 특정 정보가 최신인지, 출처가 어느 정도 신뢰가 있는지를 판별하는 데 어려움을 겪었으며, 잘못된 답을 자신 있게 내놓기도 했다.

WP는 "결국 AI 답변을 그대로 믿기보다는 사서처럼 출처 확인, 최신성 검증, 비판적 사고를 거쳐야 한다는 교훈이 재차 확인됐다"라고 보도했다.