GPT-5.4 출시 — 컴퓨터 사용, 100만 토큰, 33% 낮은 오류율

GPT-5.4 release

2026년 3월 5일, OpenAI가 GPT-5.4를 출시했습니다. ChatGPT, API, Codex 전반에 배포되며, 컴퓨터 사용(computer use), 100만 토큰 컨텍스트, 툴 서치 등으로 프로페셔널 작업에 최적화된 최강 모델로 자리 잡았습니다. 이번 분석에서는 주요 개선사항, 벤치마크, 실전 활용 전략을 살펴봅니다.

핵심 개선사항

1. 네이티브 컴퓨터 사용 (Computer Use)

GPT-5.4는 OpenAI 최초로 네이티브 컴퓨터 제어 기능을 갖춘 범용 모델입니다. 스크린샷을 보고 마우스/키보드 명령을 내리거나, Playwright 같은 라이브러리로 웹사이트와 소프트웨어를 조작할 수 있습니다.

벤치마크 성능

OSWorld-Verified (데스크톱 환경): 75.0% (인간 72.4% 초과, GPT-5.2는 47.3%)
WebArena-Verified (브라우저 사용): 67.3% (GPT-5.2: 65.4%)
Online-Mind2Web (스크린샷 기반): 92.8% (ChatGPT Atlas Agent Mode: 70.9%)

이는 AI 에이전트가 인간처럼 컴퓨터를 조작할 수 있는 수준에 도달했음을 의미합니다. 예를 들어:

이메일 확인 후 첨부파일 다운로드
스프레드시트에 데이터 입력 후 차트 생성
웹사이트에서 정보 수집 후 요약

2. 100만 토큰 컨텍스트

API와 Codex에서 최대 100만 토큰까지 지원합니다. 이는 약 75만 단어 분량으로, 다음이 가능합니다:

장편 소설 전체를 한 번에 분석
수백 페이지 문서 요약
대규모 코드베이스 전체 검토
장기적 작업 계획, 실행, 검증

장문 컨텍스트 성능

Graphwalks BFS (256K-1M): 21.4% (GPT-5.2는 미지원)
MRCR v2 8-needle (256K-512K): 57.5%
MRCR v2 8-needle (512K-1M): 36.6%

아직 초장문 구간에서는 성능이 제한적이지만, 256K 이하에서는 안정적으로 작동합니다.

3. 툴 서치 (Tool Search)

기존에는 에이전트에게 모든 툴 정의를 프롬프트에 포함시켜야 했습니다. 툴이 많으면 수만 토큰이 낭비되고, 비용과 지연이 증가했습니다.

GPT-5.4는 툴 서치를 도입해, 필요한 순간에만 툴 정의를 조회합니다. MCP Atlas 벤치마크에서 토큰 사용량 47% 감소, 정확도 유지를 달성했습니다.

이는 수천 개의 툴을 가진 시스템에서도 효율적으로 작동할 수 있음을 의미합니다. MCP 서버 활용 시 특히 유용합니다.

4. 33% 낮은 오류율 (Hallucination 감소)

GPT-5.4는 사실 오류를 GPT-5.2 대비 33% 줄였습니다. 전체 응답 기준으로도 18% 적은 오류를 보입니다.

이는 프로페셔널 작업에서 AI 신뢰성을 크게 높입니다. 법률, 의료, 금융 등 정확성이 중요한 분야에서 활용 가능성이 커집니다.

ChatGPT에서의 변화

1. 작업 계획 미리보기 (Preamble)

GPT-5.4 Thinking은 복잡한 작업을 시작할 때 작업 계획을 미리 보여줍니다. 사용자는 실행 중에도 방향을 수정할 수 있어, 반복 없이 원하는 결과를 얻을 수 있습니다.

예:

“먼저 웹에서 최신 연구 3편을 검색하고, 각 논문의 핵심 주장을 요약한 후, 비교표를 만들겠습니다. 진행 중 수정하고 싶으면 알려주세요.”

2. 더 깊은 웹 검색

GPT-5.4는 BrowseComp 벤치마크에서 82.7% 를 기록하며 GPT-5.2(65.8%)를 크게 앞섰습니다. GPT-5.4 Pro는 89.3%로 최고 성능을 달성했습니다.

“바늘 찾기(needle-in-a-haystack)” 질문에서 특히 강력하며, 여러 라운드에 걸쳐 끈질기게 검색하고 관련 정보를 종합합니다.

3. 장기 사고(Thinking) 유지

긴 대화에서도 이전 단계를 기억하며 일관성을 유지합니다. 복잡한 워크플로와 긴 프롬프트를 처리하면서도 답변이 일관되고 관련성을 잃지 않습니다.

Codex에서의 변화

1. GPT-5.3-Codex 통합

GPT-5.4는 GPT-5.3-Codex의 코딩 능력을 흡수하면서도 일반 지식 작업과 컴퓨터 사용 능력을 추가했습니다.

SWE-Bench Pro: 57.7% (GPT-5.3-Codex: 56.8%, GPT-5.2: 55.6%)
Terminal-Bench 2.0: 75.1% (GPT-5.3-Codex: 77.3%)

코딩 성능은 유지하면서도, 장기 작업에서 도구를 활용하고 반복하는 능력이 크게 향상되었습니다.

2. /fast 모드 — 1.5배 빠른 속도

Codex의 /fast 모드를 활성화하면 토큰 생성 속도가 1.5배 빨라집니다. 같은 모델, 같은 지능이지만 플로우를 유지하며 빠르게 반복할 수 있습니다.

API에서는 priority processing으로 동일한 속도를 얻을 수 있습니다.

3. Playwright (Interactive) 스킬 (실험적)

Codex가 웹 및 Electron 앱을 시각적으로 디버깅할 수 있는 실험적 스킬입니다. 앱을 빌드하면서 동시에 테스트할 수 있습니다.

프로페셔널 작업 성능

1. GDPval — 44개 직종 테스트

GDPval은 미국 GDP 상위 9개 산업의 44개 직종에서 실제 업무 산출물을 생성하는 능력을 테스트합니다.

GPT-5.4: 83.0% (전문가와 동등하거나 우수)
GPT-5.2: 70.9%

테스트 산출물 예시:

영업 프레젠테이션
회계 스프레드시트
응급 치료 스케줄
제조 다이어그램
짧은 비디오

2. 스프레드시트 및 프레젠테이션

투자 은행 모델링 태스크: 평균 87.3% (GPT-5.2: 68.4%)
프레젠테이션 평가: 인간 평가자가 68.0%의 경우 GPT-5.4 선호 (더 나은 미학, 시각적 다양성, 이미지 생성 활용)

툴 사용 성능

Toolathlon — 실제 API 활용

Toolathlon은 AI 에이전트가 실제 툴과 API를 사용해 다단계 작업을 완료하는 능력을 테스트합니다.

예시 태스크:

이메일을 읽고, 과제 첨부파일을 추출하고, 업로드한 후, 채점하고, 결과를 스프레드시트에 기록하기

GPT-5.4: 54.6% (GPT-5.2: 45.7%, GPT-5.3-Codex: 51.9%)
더 적은 턴으로 더 높은 정확도 달성

시각 이해력 향상

1. MMMU-Pro (멀티모달 이해)

툴 없이: 81.2% (GPT-5.2: 79.5%)
툴 사용: 82.1% (GPT-5.2: 80.4%)

2. OmniDocBench (문서 파싱)

정규화 편집 거리 기준 평균 오류: 0.109 (GPT-5.2: 0.140)

3. 원본 해상도 지원 (`original` detail level)

GPT-5.4부터 최대 10.24M 픽셀 또는 6000픽셀 최대 차원까지 원본 해상도 이미지를 처리할 수 있습니다.

high detail level은 2.56M 픽셀 또는 2048픽셀까지 지원합니다.

이는 정밀한 위치 인식, 이미지 이해, 클릭 정확도를 요구하는 작업에서 큰 개선을 보입니다.

가격 및 가용성

API 가격 (단위: M 토큰)

| 모델 | 입력 | 캐시된 입력 | 출력 | |——|——|————-|——| | gpt-5.2 | $1.75 | $0.175 | $14 | | gpt-5.4 | $2.50 | $0.25 | $15 | | gpt-5.2-pro | $21 | - | $168 | | gpt-5.4-pro | $30 | - | $180 |

GPT-5.4는 토큰당 가격이 높지만, 토큰 효율성이 좋아 총 비용은 많은 작업에서 오히려 감소합니다.

Batch 및 Flex 가격: 표준 API의 절반
Priority processing: 표준 API의 2배 (1.5배 빠른 속도)

ChatGPT 가용성

Plus, Team, Pro 사용자: GPT-5.4 Thinking 즉시 사용 가능 (GPT-5.2 Thinking 대체)
Enterprise, Edu: 관리자 설정에서 조기 액세스 활성화
GPT-5.2 Thinking: 3개월간 Legacy Models 섹션에서 사용 가능, 2026년 6월 5일 종료

Codex 가용성

100만 토큰 컨텍스트: 실험적 지원 (model_context_window, model_auto_compact_token_limit 설정)
272K 초과 시: 사용량 한도에 2배 계산

안전성 및 모니터링

1. 사이버 능력 High 등급

GPT-5.4는 OpenAI의 Preparedness Framework에서 High 사이버 능력으로 분류됩니다. 다음 보호 장치가 적용됩니다:

확장된 사이버 안전 스택
신뢰된 액세스 제어
ZDR(Zero Data Retention) 표면의 고위험 요청에 대한 비동기 차단

2. CoT 통제 가능성 (Controllability)

OpenAI는 Chain-of-Thought의 모니터링 가능성을 연구하며, 모델이 추론을 의도적으로 숨길 수 있는지 평가했습니다.

결과: GPT-5.4 Thinking의 CoT 통제 능력은 낮음 (긍정적 신호)
→ 모델이 추론을 숨길 수 없으며, CoT 모니터링이 여전히 효과적인 안전 도구임을 시사

실전 활용 전략

1. 언제 GPT-5.4를 사용해야 할까?

✅ GPT-5.4 권장:

프로페셔널 작업 (스프레드시트, 프레젠테이션, 문서)
컴퓨터 제어가 필요한 에이전트 작업
다단계 툴 사용이 많은 워크플로
긴 컨텍스트 유지가 중요한 작업
높은 정확도가 필요한 지식 작업

✅ GPT-5.2 유지:

가벼운 대화형 작업
코스트 최적화가 최우선인 경우
레거시 워크플로 호환성 유지

✅ GPT-5.4 Pro 권장:

최고 성능이 필요한 복잡한 작업
프론티어 수학, 과학 연구
ARC-AGI-2, FrontierMath 같은 난이도 높은 추론

2. Codex 사용자 팁

/fast 모드로 반복 속도 1.5배 향상
Playwright (Interactive) 스킬로 웹앱 시각적 디버깅
100만 토큰 컨텍스트는 실험적 기능이므로, 중요 작업에서는 272K 이하 유지

3. API 사용자 팁

MCP 서버 활용 시 툴 서치로 토큰 47% 절약
Batch/Flex 가격으로 비용 절반 절감
Priority processing으로 레이턴시 민감 작업 최적화

경쟁 구도 — Claude vs GPT

기능	GPT-5.4	Claude Opus 4.6
컴퓨터 사용	✅ 네이티브	✅ 네이티브
컨텍스트	100만 토큰 (실험적)	200K 토큰
툴 서치	✅	-
코딩	GPT-5.3-Codex 통합	Claude Code 별도
오류율	33% 감소	주장 없음

두 모델 모두 에이전트 시대를 본격화하고 있으며, OpenAI는 툴 서치 및 통합된 코딩 능력에서, Anthropic은 플랫폼 중립성과 MCP에서 우위를 점하고 있습니다.

결론 — 에이전트 시대의 본격화

GPT-5.4는 단순히 더 똑똑해진 모델이 아니라, AI 에이전트가 실제로 일하는 방식을 재정의합니다:

컴퓨터를 인간처럼 조작 (computer use)
장문 컨텍스트에서 계획-실행-검증 (1M tokens)
대규모 툴 생태계 효율적 활용 (tool search)
높은 정확도로 프로페셔널 작업 수행 (83% GDPval)

이는 AI가 보조 도구에서 실제 협업자로 전환되는 지점입니다. 개발자, 데이터 분석가, 기획자, 연구자 모두 GPT-5.4를 통해 반복 작업을 자동화하고, 더 높은 수준의 창의적 작업에 집중할 수 있습니다.

다만 사이버 안전, 오남용 방지, 투명성 확보는 여전히 진행 중인 과제입니다. OpenAI의 접근 방식이 안전성과 유용성의 균형을 제대로 맞추는지, 향후 수개월간 지켜볼 필요가 있습니다.