
2026년 3월 5일, OpenAI가 GPT-5.4를 출시했습니다. ChatGPT, API, Codex 전반에 배포되며, 컴퓨터 사용(computer use), 100만 토큰 컨텍스트, 툴 서치 등으로 프로페셔널 작업에 최적화된 최강 모델로 자리 잡았습니다. 이번 분석에서는 주요 개선사항, 벤치마크, 실전 활용 전략을 살펴봅니다.
핵심 개선사항
1. 네이티브 컴퓨터 사용 (Computer Use)
GPT-5.4는 OpenAI 최초로 네이티브 컴퓨터 제어 기능을 갖춘 범용 모델입니다. 스크린샷을 보고 마우스/키보드 명령을 내리거나, Playwright 같은 라이브러리로 웹사이트와 소프트웨어를 조작할 수 있습니다.
벤치마크 성능
- OSWorld-Verified (데스크톱 환경): 75.0% (인간 72.4% 초과, GPT-5.2는 47.3%)
- WebArena-Verified (브라우저 사용): 67.3% (GPT-5.2: 65.4%)
- Online-Mind2Web (스크린샷 기반): 92.8% (ChatGPT Atlas Agent Mode: 70.9%)
이는 AI 에이전트가 인간처럼 컴퓨터를 조작할 수 있는 수준에 도달했음을 의미합니다. 예를 들어:
- 이메일 확인 후 첨부파일 다운로드
- 스프레드시트에 데이터 입력 후 차트 생성
- 웹사이트에서 정보 수집 후 요약
2. 100만 토큰 컨텍스트
API와 Codex에서 최대 100만 토큰까지 지원합니다. 이는 약 75만 단어 분량으로, 다음이 가능합니다:
- 장편 소설 전체를 한 번에 분석
- 수백 페이지 문서 요약
- 대규모 코드베이스 전체 검토
- 장기적 작업 계획, 실행, 검증
장문 컨텍스트 성능
- Graphwalks BFS (256K-1M): 21.4% (GPT-5.2는 미지원)
- MRCR v2 8-needle (256K-512K): 57.5%
- MRCR v2 8-needle (512K-1M): 36.6%
아직 초장문 구간에서는 성능이 제한적이지만, 256K 이하에서는 안정적으로 작동합니다.
3. 툴 서치 (Tool Search)
기존에는 에이전트에게 모든 툴 정의를 프롬프트에 포함시켜야 했습니다. 툴이 많으면 수만 토큰이 낭비되고, 비용과 지연이 증가했습니다.
GPT-5.4는 툴 서치를 도입해, 필요한 순간에만 툴 정의를 조회합니다. MCP Atlas 벤치마크에서 토큰 사용량 47% 감소, 정확도 유지를 달성했습니다.
이는 수천 개의 툴을 가진 시스템에서도 효율적으로 작동할 수 있음을 의미합니다. MCP 서버 활용 시 특히 유용합니다.
4. 33% 낮은 오류율 (Hallucination 감소)
GPT-5.4는 사실 오류를 GPT-5.2 대비 33% 줄였습니다. 전체 응답 기준으로도 18% 적은 오류를 보입니다.
이는 프로페셔널 작업에서 AI 신뢰성을 크게 높입니다. 법률, 의료, 금융 등 정확성이 중요한 분야에서 활용 가능성이 커집니다.
ChatGPT에서의 변화
1. 작업 계획 미리보기 (Preamble)
GPT-5.4 Thinking은 복잡한 작업을 시작할 때 작업 계획을 미리 보여줍니다. 사용자는 실행 중에도 방향을 수정할 수 있어, 반복 없이 원하는 결과를 얻을 수 있습니다.
예:
“먼저 웹에서 최신 연구 3편을 검색하고, 각 논문의 핵심 주장을 요약한 후, 비교표를 만들겠습니다. 진행 중 수정하고 싶으면 알려주세요.”
2. 더 깊은 웹 검색
GPT-5.4는 BrowseComp 벤치마크에서 82.7% 를 기록하며 GPT-5.2(65.8%)를 크게 앞섰습니다. GPT-5.4 Pro는 89.3%로 최고 성능을 달성했습니다.
“바늘 찾기(needle-in-a-haystack)” 질문에서 특히 강력하며, 여러 라운드에 걸쳐 끈질기게 검색하고 관련 정보를 종합합니다.
3. 장기 사고(Thinking) 유지
긴 대화에서도 이전 단계를 기억하며 일관성을 유지합니다. 복잡한 워크플로와 긴 프롬프트를 처리하면서도 답변이 일관되고 관련성을 잃지 않습니다.
Codex에서의 변화
1. GPT-5.3-Codex 통합
GPT-5.4는 GPT-5.3-Codex의 코딩 능력을 흡수하면서도 일반 지식 작업과 컴퓨터 사용 능력을 추가했습니다.
- SWE-Bench Pro: 57.7% (GPT-5.3-Codex: 56.8%, GPT-5.2: 55.6%)
- Terminal-Bench 2.0: 75.1% (GPT-5.3-Codex: 77.3%)
코딩 성능은 유지하면서도, 장기 작업에서 도구를 활용하고 반복하는 능력이 크게 향상되었습니다.
2. /fast 모드 — 1.5배 빠른 속도
Codex의 /fast 모드를 활성화하면 토큰 생성 속도가 1.5배 빨라집니다. 같은 모델, 같은 지능이지만 플로우를 유지하며 빠르게 반복할 수 있습니다.
API에서는 priority processing으로 동일한 속도를 얻을 수 있습니다.
3. Playwright (Interactive) 스킬 (실험적)
Codex가 웹 및 Electron 앱을 시각적으로 디버깅할 수 있는 실험적 스킬입니다. 앱을 빌드하면서 동시에 테스트할 수 있습니다.
프로페셔널 작업 성능
1. GDPval — 44개 직종 테스트
GDPval은 미국 GDP 상위 9개 산업의 44개 직종에서 실제 업무 산출물을 생성하는 능력을 테스트합니다.
GPT-5.4: 83.0% (전문가와 동등하거나 우수)
GPT-5.2: 70.9%
테스트 산출물 예시:
- 영업 프레젠테이션
- 회계 스프레드시트
- 응급 치료 스케줄
- 제조 다이어그램
- 짧은 비디오
2. 스프레드시트 및 프레젠테이션
- 투자 은행 모델링 태스크: 평균 87.3% (GPT-5.2: 68.4%)
- 프레젠테이션 평가: 인간 평가자가 68.0%의 경우 GPT-5.4 선호 (더 나은 미학, 시각적 다양성, 이미지 생성 활용)
툴 사용 성능
Toolathlon — 실제 API 활용
Toolathlon은 AI 에이전트가 실제 툴과 API를 사용해 다단계 작업을 완료하는 능력을 테스트합니다.
예시 태스크:
이메일을 읽고, 과제 첨부파일을 추출하고, 업로드한 후, 채점하고, 결과를 스프레드시트에 기록하기
GPT-5.4: 54.6% (GPT-5.2: 45.7%, GPT-5.3-Codex: 51.9%)
더 적은 턴으로 더 높은 정확도 달성
시각 이해력 향상
1. MMMU-Pro (멀티모달 이해)
- 툴 없이: 81.2% (GPT-5.2: 79.5%)
- 툴 사용: 82.1% (GPT-5.2: 80.4%)
2. OmniDocBench (문서 파싱)
정규화 편집 거리 기준 평균 오류: 0.109 (GPT-5.2: 0.140)
3. 원본 해상도 지원 (original detail level)
GPT-5.4부터 최대 10.24M 픽셀 또는 6000픽셀 최대 차원까지 원본 해상도 이미지를 처리할 수 있습니다.
high detail level은 2.56M 픽셀 또는 2048픽셀까지 지원합니다.
이는 정밀한 위치 인식, 이미지 이해, 클릭 정확도를 요구하는 작업에서 큰 개선을 보입니다.
가격 및 가용성
API 가격 (단위: M 토큰)
| 모델 | 입력 | 캐시된 입력 | 출력 | |——|——|————-|——| | gpt-5.2 | $1.75 | $0.175 | $14 | | gpt-5.4 | $2.50 | $0.25 | $15 | | gpt-5.2-pro | $21 | - | $168 | | gpt-5.4-pro | $30 | - | $180 |
GPT-5.4는 토큰당 가격이 높지만, 토큰 효율성이 좋아 총 비용은 많은 작업에서 오히려 감소합니다.
- Batch 및 Flex 가격: 표준 API의 절반
- Priority processing: 표준 API의 2배 (1.5배 빠른 속도)
ChatGPT 가용성
- Plus, Team, Pro 사용자: GPT-5.4 Thinking 즉시 사용 가능 (GPT-5.2 Thinking 대체)
- Enterprise, Edu: 관리자 설정에서 조기 액세스 활성화
- GPT-5.2 Thinking: 3개월간 Legacy Models 섹션에서 사용 가능, 2026년 6월 5일 종료
Codex 가용성
- 100만 토큰 컨텍스트: 실험적 지원 (
model_context_window,model_auto_compact_token_limit설정) - 272K 초과 시: 사용량 한도에 2배 계산
안전성 및 모니터링
1. 사이버 능력 High 등급
GPT-5.4는 OpenAI의 Preparedness Framework에서 High 사이버 능력으로 분류됩니다. 다음 보호 장치가 적용됩니다:
- 확장된 사이버 안전 스택
- 신뢰된 액세스 제어
- ZDR(Zero Data Retention) 표면의 고위험 요청에 대한 비동기 차단
2. CoT 통제 가능성 (Controllability)
OpenAI는 Chain-of-Thought의 모니터링 가능성을 연구하며, 모델이 추론을 의도적으로 숨길 수 있는지 평가했습니다.
결과: GPT-5.4 Thinking의 CoT 통제 능력은 낮음 (긍정적 신호)
→ 모델이 추론을 숨길 수 없으며, CoT 모니터링이 여전히 효과적인 안전 도구임을 시사
실전 활용 전략
1. 언제 GPT-5.4를 사용해야 할까?
✅ GPT-5.4 권장:
- 프로페셔널 작업 (스프레드시트, 프레젠테이션, 문서)
- 컴퓨터 제어가 필요한 에이전트 작업
- 다단계 툴 사용이 많은 워크플로
- 긴 컨텍스트 유지가 중요한 작업
- 높은 정확도가 필요한 지식 작업
✅ GPT-5.2 유지:
- 가벼운 대화형 작업
- 코스트 최적화가 최우선인 경우
- 레거시 워크플로 호환성 유지
✅ GPT-5.4 Pro 권장:
- 최고 성능이 필요한 복잡한 작업
- 프론티어 수학, 과학 연구
- ARC-AGI-2, FrontierMath 같은 난이도 높은 추론
2. Codex 사용자 팁
/fast모드로 반복 속도 1.5배 향상Playwright (Interactive)스킬로 웹앱 시각적 디버깅- 100만 토큰 컨텍스트는 실험적 기능이므로, 중요 작업에서는 272K 이하 유지
3. API 사용자 팁
- MCP 서버 활용 시 툴 서치로 토큰 47% 절약
- Batch/Flex 가격으로 비용 절반 절감
- Priority processing으로 레이턴시 민감 작업 최적화
경쟁 구도 — Claude vs GPT
| 기능 | GPT-5.4 | Claude Opus 4.6 |
|---|---|---|
| 컴퓨터 사용 | ✅ 네이티브 | ✅ 네이티브 |
| 컨텍스트 | 100만 토큰 (실험적) | 200K 토큰 |
| 툴 서치 | ✅ | - |
| 코딩 | GPT-5.3-Codex 통합 | Claude Code 별도 |
| 오류율 | 33% 감소 | 주장 없음 |
두 모델 모두 에이전트 시대를 본격화하고 있으며, OpenAI는 툴 서치 및 통합된 코딩 능력에서, Anthropic은 플랫폼 중립성과 MCP에서 우위를 점하고 있습니다.
결론 — 에이전트 시대의 본격화
GPT-5.4는 단순히 더 똑똑해진 모델이 아니라, AI 에이전트가 실제로 일하는 방식을 재정의합니다:
- 컴퓨터를 인간처럼 조작 (computer use)
- 장문 컨텍스트에서 계획-실행-검증 (1M tokens)
- 대규모 툴 생태계 효율적 활용 (tool search)
- 높은 정확도로 프로페셔널 작업 수행 (83% GDPval)
이는 AI가 보조 도구에서 실제 협업자로 전환되는 지점입니다. 개발자, 데이터 분석가, 기획자, 연구자 모두 GPT-5.4를 통해 반복 작업을 자동화하고, 더 높은 수준의 창의적 작업에 집중할 수 있습니다.
다만 사이버 안전, 오남용 방지, 투명성 확보는 여전히 진행 중인 과제입니다. OpenAI의 접근 방식이 안전성과 유용성의 균형을 제대로 맞추는지, 향후 수개월간 지켜볼 필요가 있습니다.
참고 자료
- Introducing GPT-5.4 — OpenAI 공식 발표
- GPT-5.4 System Card — OpenAI
- GPT-5.4 Wikipedia
- GPT-5.4 Just Dropped — RoboRhythms
- AI Updates Today (March 2026) — AF.net