실제 코딩 작업을 3일간 진행한 후의 Claude Opus 4.7과 4.6 비교

3일·

1.1k

실제 사용 데이터 기준 Opus 4.7은 4.6보다 첫 시도 성공률과 코딩·디버깅 지표는 낮고, 출력량과 비용은 더 큰 편.

아직 4.7 데이터는 초반이지만, 예상 밖인 지점들이 몇 가지 있었음.
4.7, 4.6 모두 max effort 로 진행
내 세션에서는 4.7이 4.6보다 첫 시도에 맞히는 비율이 낮음.
- one-shot rate: 74.5% vs 83.8%
- edit당 retry: 0.46 vs 0.22로 거의 두 배
4.7은 call당 출력도 훨씬 많아 비용 체감이 커짐.
- output token/call: 약 800 vs 372
- cost/call: $0.185 vs $0.112
task type별로 보면 coding과 debugging은 4.7 쪽이 약해 보임.
- coding one-shot: 84.7%에서 75.4%로 하락
- debugging one-shot: 85.3%에서 76.5%로 하락
- feature work는 4.7이 75% vs 71.4%로 살짝 높지만 sample이 작음
- delegation은 100% vs 33.3%로 차이가 크지만, 4.7 쪽 sample이 3개뿐이라 아직 크게 의미 부여하긴 어려움
4.7은 turn당 tool 사용도 더 적고 subagent 위임도 거의 하지 않음.
- tools/turn: 1.83 vs 2.77
- subagent delegation: 0.6% vs 3.1%
- style 차이인지, sample이 작아서 생긴 차이인지는 아직 불확실
몇 가지 주의 사항이 있음.
- 4.7 데이터는 약 3일치, 3,592 calls
- 4.6 데이터는 약 8일치, 8,020 calls
- 일부 category는 예시가 몇 개 안 됨
- 사용량이 더 쌓이면 수치는 바뀔 수 있고, 어떤 작업을 하느냐에 따라 결과도 달라질 가능성이 큼

지표 의미

댓글을 남기려면 로그인이 필요합니다.

로그인 후 이 페이지로 돌아와 바로 댓글을 남길 수 있습니다.