AI VIDEO BRIEFING

GPT-5.4 분석 — 화이트칼라 업무 벤치마크, 들쭉날쭉한 성능, 그리고 앤트로픽·국방부 논란

OpenAI의 GPT-5.4가 화이트칼라 업무에서 보인 성과와 환각·들쭉날쭉한 성능의 한계, 그리고 앤트로픽이 국방 계약을 둘러싸고 OpenAI와 충돌한 논란까지 정리했다.

출처: AI Explained2026년 3월 6일AI 보조 요약

새 GPT-5.4가 세상에 던지는 의미 — 전문직 자동화와 AI·국방 논란 영상 대표 이미지

핵심 메시지

OpenAI는 GPT-5.3 인스턴트 공개 48시간 만에 GPT-5.4를 내놨고, 영상은 이를 '모든 화이트칼라 전문직을 위한 코덱스(Codex)/클로드 코드' 시도로 본다.
GDPval 벤치마크에서 GPT-5.4는 44개 화이트칼라 직종의 인간 첫 산출물을 70.8%(무승부 포함 83%) 이겼지만, 사람은 하지 않을 치명적 실수와 과제의 자기완결적 한계가 함께 지적된다.
성능은 들쭉날쭉(spiky)하다 — 일부 내부 벤치마크에서는 크게 향상됐지만, 실제 엔지니어링 병목을 모은 PROOF Q&A에서는 이전 모델들보다도 낮았다.
환각 측면에서 정확도는 최상위권에 가깝지만, 틀릴 때 모른다고 인정하기보다 그럴듯하게 둘러대는 경향이 높게 나타났다.
영상 후반부는 앤트로픽이 국방부로부터 '공급망 리스크'로 통보받은 사건과, 다리오 아모데이의 유출 메모를 둘러싼 OpenAI·앤트로픽·국방부 간 갈등을 다룬다.

쉽게 이해하기

발표자는 GPT-5.4가 큰 업데이트지만, 지금 AI 지형이 그 어느 때보다 혼탁하다고 말한다. 모호한 SNS 게시물, 우호적 평가자에게 먼저 주어지는 접근권, 유출 보고서와 상호 비방, 예측시장 조작, 기업들이 직접 만든 벤치마크 난립이 뒤섞여 있다는 것이다. 그래서 그는 최근 며칠간의 흐름에서 사람들이 알아야 할 핵심들을 추려 정리한다.

핵심 성과는 화이트칼라 업무다. GPT-5.4는 GDP 기여도를 기준으로 고른 44개 직종의 인간 산출물과 블라인드로 비교됐고(그래서 벤치마크 이름이 GDPval), 인간의 첫 시도를 70.8%, 무승부까지 포함하면 83% 이겼다. 다만 발표자는 사람이라면 하지 않을 치명적 실수, 그리고 과제들이 자기완결적·디지털 작업에 한정돼 실제 직무 전체를 대표하지는 않는다는 점을 단서로 단다. 흥미롭게도 최고가 사용자만 쓰는 GPT-5.4 Pro가 이 벤치마크에서는 일반 GPT-5.4보다 낮은 점수를 받았다.

환각 측면에서 GPT-5.4의 정확도는 최상위권에 근접하지만(아티피셜 애널리시스 기준 GPT-5.3 코덱스보다는 약간 낮음), 틀릴 때 '모른다'고 인정하기보다 그럴듯하게 둘러대는 비율이 높게 나왔다. 한편 코덱스(이제 윈도우도 지원) 데모에서는 축구 구단의 시즌 순위 변화를 보여 주는 애니메이션 표를 한 번에 만들어 내는 등, 거의 자율적인 소프트웨어 개발의 진전을 보여 줬다. 발표자는 모델이 자기 출력을 직접 보고 클릭해 테스트하는 '루프가 닫히고 있다'고 표현한다.

그러나 성능은 들쭉날쭉하다. 한 내부 머신러닝 벤치마크에서는 점수가 약 12%에서 23%로 두 배가 됐지만, OpenAI 내부에서 실제로 부딪힌 20개 엔지니어링 병목을 모은 PROOF Q&A에서는 GPT-5.4 띵킹이 GPT-5.3 코덱스는 물론 이전 세대보다도 낮았다. 이는 '특정 분야를 깊이 학습하면 다른 분야로도 일반화된다'는 베팅과 '분야마다 희귀한 데이터가 따로 필요하다'는 견해가 맞서는, 현재 AI의 핵심 논쟁을 그대로 보여 준다. 또 다른 한편에서는 한 수학자가 20년간 다듬어 온 난제를 GPT-5.4가 풀어내, '나만의 결정적 순간을 본 것 같다'고 표현하기도 했다.

영상 후반부는 AI와 국방 문제로 넘어간다. 앤트로픽은 국방부로부터 '공급망 리스크'라는 통보를 받았고, 다리오 아모데이의 1600단어 분량 내부 메모가 유출됐다. 앤트로픽은 국방부가 클로드를 국내 감시나 완전 자율 전쟁에 쓸 가능성을 남겨 두려 해 이를 레드라인으로 거부했다고 밝힌 반면, 샘 올트먼은 안전장치를 더해 수억 달러 규모의 계약을 따냈다는 것이 발표자의 정리다. 다만 이후 워싱턴포스트는 팔란티어 시스템 안의 클로드가 이란에서 수백 개 표적을 제안하고 좌표와 우선순위를 매겼다고 보도했고, 아모데이 본인도 메모의 어조를 사과했다. 발표자는 어느 한쪽을 선악으로 단정하기보다 상황이 더 복잡하다는 점을 강조한다.

주요 인사이트

GDPval 같은 '실제 업무를 본뜬' 벤치마크의 높은 점수는 인상적이지만, 자기완결적 과제라는 한계와 치명적 실수 가능성을 함께 봐야 한다.
정확도가 높아도 '틀릴 때 둘러대는' 경향이 크면 전문가 검증 없이 결과를 맡기기 어렵다 — 모델을 쓰되 확인은 사람이 해야 한다.
분야별 성능이 들쭉날쭉한 현상은 '전문화가 일반화로 이어지는가'라는, 현재 AI의 가장 중요한 논쟁과 직결된다.
AI·국방 논란은 기술 자체보다 안전장치가 실질적인지, 인간 개입이 정책인지 법인지 같은 거버넌스 문제임을 보여 준다.
발표자의 실용적 조언은 분명하다 — 2026년에 최고 수준의 AI 도구를 쓰지 않는 것 자체가 전문가에게는 위험한 선택이 될 수 있다.

자주 묻는 질문

GPT-5.4는 인간 전문가를 정말 능가했나요?

GDPval 벤치마크에서 44개 화이트칼라 직종의 인간 첫 산출물을 70.8%(무승부 포함 83%) 이겼습니다. 다만 사람은 하지 않을 치명적 실수와, 과제가 자기완결적이라는 한계가 함께 지적됩니다.

GPT-5.4의 약점은 무엇인가요?

성능이 분야마다 들쭉날쭉해 실제 엔지니어링 병목(PROOF Q&A)에서는 이전 모델보다 낮았고, 틀릴 때 모른다고 인정하기보다 그럴듯하게 둘러대는 경향이 높게 나타났습니다.

앤트로픽과 국방부 사이에 무슨 일이 있었나요?

앤트로픽은 국방부가 클로드를 국내 감시·자율 전쟁에 쓸 가능성을 남겨 두려 해 거부했다고 밝혔고, 그 결과 '공급망 리스크' 통보를 받았습니다. 이후 워싱턴포스트는 팔란티어 시스템 속 클로드가 이란에서 표적을 제안했다고 보도하는 등 논란이 복잡하게 얽혀 있습니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗