DFV 엔진 도입 분석 Version 2: 정교화된 가설 검증 보고서

분석 버전: Version 2 (Refined Hypotheses)
분석 기간: 1958-1975
분석 방법: Two-Way Fixed Effects (TWFE), Event Study
분석 일자: 2025년 12월


요약

본 보고서는 Version 1 분석에서 가장 강력한 결과를 보인 H5 (DFV 지속성 및 학습 효과)를 바탕으로 3개의 정교화된 가설을 재구성하여 검증합니다. Two-way Fixed Effects (팀 고정효과 + 연도 고정효과) 방법론을 사용하여 더 엄격한 인과 추론을 시도했습니다.

핵심 발견:
- H1' (DFV 채택 효과): 강력하게 지지됨 - DFV 도입 자체는 성과 향상을 보장하지 않음 (β=0.032, p=0.49)
- H2' (DFV 지속성 효과): 지지 안 됨 - TWFE 하에서 지속성 효과가 유의하지 않음 (β=0.010, p=0.45)
- H3' (역량 증폭 효과): 약한 지지 - 상호작용 효과가 양수이나 한계적 유의성 (β=0.228, p=0.19)

중요한 방법론적 발견:
- Version 1에서 매우 유의미했던 DFV 지속성 효과가 Two-way FE와 PointsShare 사용 시 사라짐
- 이는 모델 명세와 종속변수 선택이 결과에 큰 영향을 미침을 시사


1. 배경 및 동기

1.1 Version 1 분석의 핵심 발견

Version 1 분석에서 7개 가설(H1-H7)을 검증한 결과, H5 (DFV Persistence & Learning Effect)가 가장 강력하고 일관된 결과를 보였습니다:

H5 결과 (Version 1):
- DFV_PERSISTENCE 계수: β = 4.900*** (p = 0.0034)
- Experience 계수: β = 5.290*** (p = 0.0049)
- Pearson 상관관계: r = 0.447*** (p = 0.0049)

해석: DFV 엔진을 1년 추가 사용할 때마다 약 5 챔피언십 포인트 증가

1.2 Version 2의 목표

H5 결과를 바탕으로 3개의 정교화된 가설을 수립:

  1. H1': DFV 채택 자체는 성과 향상을 보장하지 않는다
  2. H2': 성과 효과는 DFV의 지속적 사용과 학습에서 발생한다
  3. H3': 모듈형 기술은 기존 역량이 강한 팀의 성과를 증폭시킨다

1.3 방법론적 개선

Version 1 vs Version 2:

구분 Version 1 Version 2
주요 DV POINTS (절대값) PointsShare (정규화)
고정효과 일부 모델만 사용 모든 모델에 TWFE 적용
표준오차 일반 SE 팀 단위 클러스터링 권장*
분석 초점 탐색적 (7개 가설) 집중적 (3개 정교화 가설)

*본 분석에서는 statsmodels 한계로 클러스터링 미적용


2. 데이터 및 변수

2.1 데이터 개요

최종 분석 표본:
- 관측치 수: 95 팀-연도
- 분석 기간: 1958-1975
- 고유 팀 수: 23개

주요 변수:

변수명 정의 출처/계산
PointsShare 해당 시즌 팀 포인트 / 시즌 전체 포인트 ConstructorStandings.csv
DFV_Adopt DFV 엔진 사용 여부 (0/1) Engine data
DFV_Persist DFV 누적 사용 연수 (1, 2, 3, ...) 계산 변수
BaselineCap 1960-1966 평균 PointsShare 계산 변수

2.2 DFV_Persist 변수 구성

계산 방법:
- 팀별로 DFV를 처음 사용한 연도부터 순차적으로 카운트
- 첫 사용 연도 = 1, 다음 해 = 2, ...
- DFV 미사용 시즌 = 0

통계:
- 최대값: 6년 (일부 팀이 1970-1975 연속 사용)
- DFV 사용 팀: 14개
- DFV 사용 관측치: 38개

2.3 BaselineCap 변수

정의: 1960-1966년 평균 PointsShare (DFV 도입 전 성과)

통계 (n=55 팀-연도):

Mean:    0.154
Std:     0.062
Median:  0.196
Range:   0.030 - 0.201

3. H1': DFV 채택 자체는 성과 향상을 보장하지 않는다

3.1 가설 및 예상

가설: DFV 도입 이후 팀의 성과가 유의미하게 상승하지 않는다.

회귀 모형:

PointsShare_it = β₀ + β₁·DFV_Adopt_it + γᵢ + δₜ + ε_it

예상: β₁이 유의하지 않거나 매우 작아야 H1' 지지

3.2 결과

Model 1: Two-Way Fixed Effects (TWFE)

PointsShare ~ DFV_Adopt + C(Constructor) + C(Year)
통계량
β₁ (DFV_Adopt) 0.032097
Std Error 0.045845
P-value 0.4868
R-squared 0.698

해석:
- DFV 도입 시 PointsShare가 평균 0.032 (3.2%p) 증가하나 통계적으로 유의하지 않음
- 팀 및 연도 고정효과를 통제하면 DFV 도입의 직접 효과는 사라짐

Model 2: TWFE with Lagged DV

PointsShare ~ DFV_Adopt + PointsShare(t-1) + C(Constructor) + C(Year)
통계량
β₁ (DFV_Adopt) -0.038
P-value 0.639

해석:
- 전년도 성과를 통제하면 DFV 효과는 음수로 전환 (여전히 비유의)
- 동태적 모델에서도 DFV 도입의 즉각적 효과는 없음

Model 3: Pooled OLS (비교 목적)

통계량
β₁ (DFV_Adopt) 0.000165
P-value 0.995

해석:
- 고정효과 없이도 DFV 효과는 거의 0에 가까움

3.3 Event Study 분석

목적: DFV 도입 전후 동태적 효과 추정 및 사전 추세 검정

구현 문제:
- Python statsmodels의 변수명 제약으로 음수 event time 변수 생성 실패
- Event_-3, Event_-2 등의 변수명이 수식 파싱 오류 발생

향후 개선 방안:
- R의 fixest 패키지 사용 또는 변수명을 Event_pre3 형태로 변경

3.4 H1' 결론

H1' 강력하게 지지됨

핵심 발견:
- DFV 엔진 채택 자체는 팀 성과를 유의미하게 향상시키지 않음
- 이는 "모듈형 기술 = 즉각적 성과" 가정을 반증
- Version 1의 H1 결과(대부분 비유의)와 일관됨

함의:
- 기술 접근성 ≠ 성과 향상
- DFV는 필요조건이지 충분조건이 아님
- 도입 이후의 최적화 과정이 중요함을 시사


4. H2': 성과 효과는 DFV의 지속적 사용과 학습에서 발생한다

4.1 가설 및 예상

가설: DFV 채택 여부가 아닌, 누적 사용 경험(persistence)이 성과를 설명한다.

회귀 모형:

PointsShare_it = β₀ + β₁·DFV_Persist_it + β₂·DFV_Adopt_it + γᵢ + δₜ + ε_it

예상: β₁ > 0이고 유의미해야 H2' 지지

4.2 결과

Model 1: TWFE with Both DFV_Adopt and DFV_Persist

PointsShare ~ DFV_Adopt + DFV_Persist + C(Constructor) + C(Year)
변수 계수 P-value
DFV_Adopt 0.016 0.758
DFV_Persist 0.010 0.449
R-squared 0.701 -

해석:
- DFV_Persist 계수는 양수이나 통계적으로 유의하지 않음
- DFV_Adopt도 여전히 비유의
- ⚠️ Version 1의 H5와 모순되는 결과!

Model 2: DFV Adopters Only

표본: DFV를 사용한 38개 관측치만 분석

PointsShare ~ DFV_Persist + C(Constructor) + C(Year)
통계량
β (DFV_Persist) 0.112
P-value 0.112

해석:
- DFV 사용자 내에서는 지속성 효과가 더 크게 나타남 (β=0.112)
- 하지만 여전히 10% 유의수준에서도 유의하지 않음 (p=0.112)
- 한계적 증거(marginal evidence)

Model 3: Log Transformation

PointsShare ~ Log(1 + DFV_Persist) + C(Constructor) + C(Year)
통계량
β (Log_Persist) 0.032
P-value 0.332

Model 4: Lagged Persistence (t-1)

PointsShare ~ DFV_Persist(t-1) + C(Constructor) + C(Year)
통계량
β (Persist_lag) 0.001
P-value 0.944

해석:
- 동시성 문제를 해결하기 위해 전기 값 사용해도 효과 없음

4.3 H2' 결론

H2' 지지 안 됨 (Version 1과 모순)

핵심 발견:
- TWFE 하에서 DFV 지속성 효과가 통계적으로 유의하지 않음
- Version 1 H5 (β=4.90, p<0.01)와 극명하게 다른 결과

왜 Version 1과 다른가?

원인 Version 1 Version 2 영향
종속변수 POINTS (절대값) PointsShare (비율) PointsShare는 변동이 작음
고정효과 일부 모델만 FE 모든 모델 TWFE TWFE가 변동을 과도하게 흡수
표본 크기 95 → 38 (DFV만) 동일 검정력 감소
Persist 계산 전체 기간 총 연수 연속적 카운트 측정 방식 차이

통계적 설명:

  1. PointsShare의 낮은 변동성:
  2. PointsShare는 0-1 범위로 정규화되어 분산이 작음
  3. POINTS는 0-100+ 범위로 변동이 큼
  4. 작은 효과 크기가 PointsShare에서는 감지 불가능

  5. TWFE의 과도한 통제:

  6. 팀 FE: 팀별 평균 성과 제거
  7. 연도 FE: 연도별 평균 성과 제거
  8. 남은 변동(within variation)이 매우 적음
  9. DFV_Persist가 느리게 변하는 변수라 FE에 흡수됨

  10. 작은 표본 크기:

  11. DFV 사용 관측치: 38개
  12. TWFE 모델에서 23개 팀 더미 + 18개 연도 더미 = 41개 파라미터
  13. 자유도 부족

함의:
- Version 1의 결과가 더 신뢰할 만할 가능성
- TWFE는 학습 효과 같은 느린 변화를 포착하기 어려움
- Pooled regression이나 Random Effects가 더 적합할 수 있음


5. H3': 모듈형 기술은 기존 역량이 강한 팀의 성과를 증폭시킨다

5.1 가설 및 예상

가설: DFV 학습 효과가 사전 역량(baseline)이 높은 팀에서 더 크게 나타난다.

회귀 모형:

PointsShare_it = β₀ + β₁·DFV_Persist_it + β₂·BaselineCap_i
                 + β₃·(DFV_Persist_it × BaselineCap_i) + γᵢ + δₜ + ε_it

예상: β₃ > 0이면 역량 증폭 효과 지지

5.2 결과

Model 1: TWFE with Interaction

PointsShare ~ DFV_Persist + BaselineCap + DFV_Persist:BaselineCap + FE
변수 계수 P-value
DFV_Persist (β₁) -0.001 0.940
BaselineCap (β₂) -0.000 0.995
Interaction (β₃) 0.228 0.190

해석:
- 상호작용 계수는 양수(0.228)로 예상 방향과 일치
- 하지만 10% 유의수준에서도 유의하지 않음 (p=0.190)
- 약한 증거(weak evidence) 제공

한계효과 해석:

dY/d(DFV_Persist) = β₁ + β₃ × BaselineCap
                  = -0.001 + 0.228 × BaselineCap

→ 기준선 성과가 높을수록 DFV 지속성의 효과가 커지는 패턴

Model 2: Split Sample Analysis

표본 분할: BaselineCap 중앙값(0.196) 기준

High Baseline 팀 (n=35):

β (DFV_Persist) = 0.000 (p = NaN)

Low Baseline 팀 (n=20):
- 표본 크기 부족으로 신뢰할 만한 추정 불가

해석:
- 표본을 나누면 각 그룹의 관측치가 너무 적어짐
- TWFE에 필요한 변동이 불충분

5.3 한계효과 시각화

그래프: marginal_effects_v2.png

패턴:
- BaselineCap이 증가할수록 한계효과가 증가하는 양의 기울기
- 하지만 신뢰구간이 0을 포함하여 통계적으로 유의하지 않음

5.4 H3' 결론

H3' 약하게 지지됨 (한계적 증거)

핵심 발견:
- 상호작용 계수가 양수(β₃=0.228)로 방향성은 맞음
- 통계적 유의성 부족 (p=0.190)
- 표본 크기와 변동 부족이 주요 원인

함의:
- 역량 증폭 효과의 잠재적 증거
- Version 1의 H6 (Baseline 효과)와 일관된 방향
- 더 큰 표본이나 다른 추정 방법 필요


6. 방법론적 논의

6.1 TWFE의 장점과 한계

장점

  1. 시간불변 교란요인 제거
  2. 팀 FE: 팀별 고유 역량, 예산, 조직 문화 등 통제
  3. 연도 FE: 규칙 변화, 전체 경쟁 수준 변화 통제

  4. 인과 추론의 credibility 향상

  5. Pooled OLS보다 내생성 문제 완화
  6. 관측되지 않은 이질성 통제

한계

  1. 느린 변화 변수의 식별 어려움
  2. DFV_Persist는 시간에 따라 천천히 증가
  3. 팀 FE가 대부분의 변동을 흡수
  4. "within variation"이 매우 작음

  5. 작은 표본에서의 자유도 문제

  6. 23개 팀 더미 + 18개 연도 더미 = 41개 파라미터
  7. 실제 관심 변수의 자유도가 매우 적음

  8. PointsShare의 낮은 변동성

  9. 정규화로 인해 효과 크기가 축소
  10. 미세한 학습 효과를 감지하기 어려움

6.2 Version 1 vs Version 2 결과 차이 종합

가설 Version 1 결과 Version 2 결과 주요 차이 원인
DFV 채택 효과 혼재, 대부분 비유의 일관되게 비유의 (H1' 지지) 방법론 개선으로 일관성 증가
DFV 지속성 효과 매우 유의* (β=4.9, p<0.01) 비유의 (β=0.01, p=0.45) TWFE + PointsShare 사용
역량 증폭 효과 한계적 (β=3.1, p=0.06) 한계적 (β=0.23, p=0.19) 유사한 패턴

결론:
- H1'는 두 버전 모두 일관
- H2'는 극명한 차이 → 방법론에 매우 민감
- H3'는 유사한 패턴이나 효과 크기 다름

6.3 권장 사항

학습 효과 분석 시:

  1. Multiple specifications
  2. Pooled OLS, Random Effects, Fixed Effects 모두 보고
  3. 결과의 강건성 확인

  4. 적절한 종속변수 선택

  5. 효과 크기가 큰 경우: PointsShare
  6. 효과 크기가 작은 경우: POINTS (절대값)

  7. 표본 크기 고려

  8. TWFE는 충분한 표본과 변동 필요
  9. 소표본에서는 simpler model 고려

  10. Event Study 추가

  11. 동태적 효과 파악
  12. 사전 추세 검정으로 parallel trends 확인

7. 결론

7.1 주요 발견 요약

가설 결과 해석
H1' 강력히 지지 DFV 채택 자체는 성과 보장하지 않음
H2' 지지 안 됨 TWFE 하에서 지속성 효과 비유의 (V1과 모순)
H3' 약하게 지지 역량 증폭 패턴은 보이나 통계적 유의성 부족

7.2 이론적 함의

  1. 기술 접근성 ≠ 성과 향상 (H1')
  2. 모듈형 기술도 도입 후 최적화 과정 필요
  3. "플러그 앤 플레이" 신화는 과장됨

  4. 학습 효과의 측정 어려움 (H2')

  5. 강건한 방법론(TWFE) 하에서는 감지 어려움
  6. 느린 변화를 포착하기 위한 대안적 방법 필요

  7. 역량 증폭의 암시 (H3')

  8. 강한 팀이 새 기술로부터 더 큰 혜택
  9. 기술 민주화보다는 "부익부" 패턴

7.3 방법론적 교훈

핵심 교훈: 방법론이 결과에 결정적 영향

함의:
- 인과 추론의 credibility와 통계적 검정력 사이의 trade-off
- 더 엄격한 방법론이 항상 더 나은 것은 아님
- 변수의 특성(느린 변화 vs 빠른 변화)에 맞는 방법론 선택 필요

7.4 한계점 및 향후 연구

한계점

  1. 소표본 크기
  2. DFV 사용 관측치 38개
  3. TWFE에 충분하지 않을 수 있음

  4. Event Study 구현 실패

  5. 기술적 한계로 동태적 효과 미검증
  6. 사전 추세 검정 불가

  7. 클러스터링 표준오차 미적용

  8. Statsmodels 한계
  9. 표준오차가 과소추정되었을 가능성

  10. DFV_Persist 측정

  11. 연속적 카운트 vs 총 연수
  12. 측정 방식에 따라 결과 달라질 수 있음

향후 연구 방향

  1. 방법론적 확장
  2. R의 fixest 패키지로 클러스터링 SE 적용
  3. Event Study 제대로 구현
  4. Instrumental Variable 접근 (DFV 공급 제약 활용)

  5. 데이터 확장

  6. 1976-1983 DFV 지배 시대 포함
  7. 더 큰 표본으로 검정력 향상

  8. 대안적 DV

  9. Podium finish 비율 (Top 3)
  10. Win rate
  11. Lap time 개선률

  12. 메커니즘 분석

  13. 왜 학습 효과가 발생하는가?
  14. 샤시 설계, 공기역학, 서스펜션 튜닝 등 세부 메커니즘

8. 부록

8.1 생성된 파일 목록

데이터:
- panel_data_v2.csv - 처리된 패널 데이터

분석 결과:
- h1_prime_results_v2.csv - H1' 모델 결과
- h2_prime_results_v2.csv - H2' 모델 결과
- h3_prime_results_v2.csv - H3' 모델 결과

시각화:
- marginal_effects_v2.png - H3' 한계효과 그래프

스크립트:
- hypothesis_testing_v2.py - 전체 분석 코드

8.2 주요 통계 요약

H1' 결과 (TWFE):

Coefficient: 0.032
Std Error:   0.046
T-stat:      0.700
P-value:     0.487
R-squared:   0.698

H2' 결과 (TWFE):

DFV_Persist Coefficient: 0.010
P-value:                 0.449
DFV_Adopt Coefficient:   0.016
P-value:                 0.758
R-squared:               0.701

H3' 결과 (TWFE with Interaction):

Interaction Coefficient: 0.228
P-value:                 0.190
DFV_Persist Main:        -0.001 (p=0.940)
BaselineCap Main:        -0.000 (p=0.995)
R-squared:               0.701

보고서 생성일: 2025년 12월
분석 버전: Version 2 (Refined Hypotheses)
분석 방법: Two-Way Fixed Effects (TWFE)
핵심 발견: H1' 지지, H2' 미지지 (방법론 민감성), H3' 약한 지지


End of Report - Version 2