아더 AI, 라마 2·클로드 2·코히어 등 비교… 구글은 포함 안돼
생성형 인공지능(AI) 서비스 챗GPT 개발사인 오픈 AI의 대규모 언어모델(LLM) GPT-4가 다른 LLM 보다 우수한 능력을 보인다는 연구 결과가 나왔다.
머신러닝(기계학습) 모니터링 기업 아더(Arthur) AI는 GPT-4와 코히어의 AI, 메타의 라마 2, 앤스로픽의 클로드 2 등 4개 언어 모델을 비교 분석한 보고서를 냈다. 코히어는 구글에서 AI 연구를 담당한 팀원들이 만든 캐나다 스타트업이다. 앤스로픽은 오픈 AI 창립자 그룹이 따로 나와 만든 곳으로 SK텔레콤이 최근 1억 달러(약 1300억 원)를 투자했다. 이번 비교에 구글의 LLM은 포함되지 않았다.
연구팀은 수학과 미국 대통령, 모로코 정치 지도자에 관한 질문을 던져 AI 모델의 정답을 비교했다. 또 이들 LLM이 ‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답변을 해 오답의 위험을 회피하는지 여부를 테스트했다. 그 결과 전반적으로 GPT-4가 테스트 한 4개 모델 중 가장 우수한 성능을 보인 것으로 나타났다.
GPT-4는 이전 버전인 GPT-3.5보다 환각이 적고, 수학 문제는 종류에 따라 33%~50%가량 오답을 제시했다고 연구팀은 설명했다. 이에 반해 메타의 라마 2는 GPT-4나 클로드 2보다 전반적으로 더 많은 환각 현상을 일으켰다.
수학 부문에서 GPT-4와 클로드 2는 30개 문제 중 9개와 6개의 정답을 각각 제시해 정답률 1, 2위를 차지했다. 라마 2와 코히어는 단 한 개도 맞히지 못했다.
미국 대통령과 관련한 33개 질문에서는 클로드 2가 15개의 정답을 제시했다. 이어 GPT-4(11개), 라마 2(9개), 코히어(4개) 순으로 나타났다.
모로코 정치 지도자와 관련한 30개 질문에서는 GPT-4가 절반(15개)의 정답을 제시한 데 비해 라마 2와 클로드 2는 각각 2개와 1개에 그쳤다. 코히어는 30개 질문에 대해 모두 잘못된 정보를 그럴듯하게 만든 오답을 생성했다.
' AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시한 비율은 GPT-4가 2.9%로 가장 높았다. 이는 GPT-3.5의 2.2%보다도 더 높다. 연구팀은 “GPT-3.5보다 GPT-4를 사용하기가 더 답답하다는 이용자들이 제기한 문제의 증거를 정량화해 보여준 것”이라고 설명했다. 가장 많은 환각을 생성한 코히어의 AI 모델은 어떤 질문에서도 ‘나는 의견을 제공할 수 없다’는 답을 내놓지 않았다.
챗GPT가 정치적으로 진보 성향을 나타낸다는 연구 결과가 나왔다.
워싱턴포스트(WP)에 따르면, 영국 이스트앵글리아대 연구팀은 퍼블릭초이스저널에 이런 내용의 논문을 게재했다.
연구팀은 이념적 질문 60개를 만든 후 챗GPT에 ‘다양한 정치적 성향을 가정하고 질문에 답하라’고 요청했다. 이어 “진보와 보수 혹은 중립적인 입장이라면 이 질문에 어떻게 대답할 것인가”라고 물었고, 정치적 성향에 따른 답변을 ‘기본 답변’과 비교하는 방법으로 편향성을 평가했다.
그 결과, 챗GPT의 의견은 미국 민주당이나 영국 노동당과 비슷한 것으로 나타났다. 브라질 관련 질문에선 루이스 이나시우 룰라 다시우바 대통령 지지자와 비슷한 응답을 했다. 연구팀은 “이번 연구는 AI가 온라인 및 사회관계망서비스(SNS)의 문제를 재현하거나 증폭시킬 수 있다는 사실을 보여준다”라고 설명했다. 다만 “국가와 개인의 신념에 따라 무엇이 진보이고 보수인지에 대한 기준이 다를 수 있어 AI의 정치적 편향 연구는 한계가 있다”라고 덧붙였다.