자기보호 반응을 반영한 무작위 응답 데이터 분석
본 논문은 네덜란드 사회보장 조사에서 민감한 위법 질문에 무작위 응답(Randomized Response) 기법을 적용했을 때, 일부 응답자가 설계된 무작위 장치를 무시하고 항상 비위법 답변을 선택하는 ‘자기보호(self‑protective)’ 행동을 통계적으로 모형화한다. 실제 위법 횟수를 잠재 포아송 변수로 두고, 무작위 응답 과정을 통해 관측된 ‘예’ 답변 수를 생성한다. 자기보호 응답은 관측된 영(0)값을 과다하게 만들므로, 이를 영‑인…
저자: Maarten J. L. F. Cruyff, Ulf B"ockenholt, Ardo van den Hout
1. 연구 배경 및 목적
2004년 네덜란드 사회보장부는 실업 급여 수급자를 대상으로 규정 위반 여부를 조사하였다. 질문이 민감하기에 무작위 응답(Randomized Response, RR) 설계를 채택했지만, 응답자가 설계 규칙을 무시하고 항상 ‘아니오’(비위법) 답변을 하는 자기보호(self‑protective, SP) 행동이 존재할 가능성이 제기되었다. 기존 RR 모델은 이러한 행동을 반영하지 못해 관측된 영(0)값이 과다하게 나타나는 문제를 야기한다. 본 논문은 SP 행동을 통계적으로 모델링하고, 이를 기존 RR 모델에 통합한 새로운 회귀 모델을 개발한다.
2. 데이터 개요
- 표본: 사회보장 급여 수급자 870명
- 질문: 규정 위반 여부를 묻는 5개 민감 질문
- 응답 방식: 강제 응답 설계(두 개의 가상 주사위) → ‘예’(yes)와 ‘아니오’(no) 중 하나 선택.
- 실제 무작위 장치 오류: ‘예’ 답변 확률이 비위법일 때 0.9329, 위법일 때 0.18678 (원래 설계와 차이)
- 관측된 ‘예’ 답변 수 합계(S*)의 빈도: n0=288, n1=295, n2=207, n3=68, n4=7, n5=5
예측 변수
① 인구통계: 성별(gender), 연령(age), 실업 연도(year unemployment), 교육(education), 규정 지식(knowledge rules)
② 설계 인지: 신뢰(trust), 이해(understanding) – 각각 5점 척도 평균 점수
3. 기존 무작위 응답 모델
각 질문 m에 대해 진실 상태 Y_m∈{0,1}와 관측 응답 Y*_m∈{0,1} 사이의 오분류 확률 p_{y*|y}를 정의한다. 다중 질문의 합계 점수 S=∑Y_m가 다항분포를 따른다고 가정하고, 이를 무작위 응답 과정 q_{s*|s}와 결합해 관측 합계 S*의 확률을 도출한다.
4. 포아송 무작위 응답 모델
진짜 위법 횟수 S를 파라미터 λ를 갖는 포아송 분포로 가정하고, M=5(질문 수)보다 큰 값은 절단(truncate)한다. 포아송 확률 π_s=exp(−λ)λ^s/s! 를 q_{s*|s}와 결합해 RR‑Poisson 모델을 만든다.
5. 영‑인플레이션 무작위 응답 회귀 모델 (ZIP‑RR)
SP 행동은 관측된 영값을 고정적으로 생성하는 확률 θ_i(=P(S*=0|SP))로 모델링한다. 전체 관측 분포는
P(S*=s)= (1−θ_i)·P_RR‑Poisson(s) + θ_i·I(s=0)
이며, θ_i는 로짓(link) 함수와 예측 변수(신뢰, 이해)로 설명한다. λ 역시 로그(link)와 인구통계 변수로 설명한다. 따라서 두 개의 회귀식이 동시에 추정된다.
6. 추정 방법
최대우도법(ML)으로 파라미터를 추정한다. 로그우도는 관측된 S*와 영‑인플레이션 혼합 구조를 반영한다. 모델 적합도는 AIC, BIC, Pearson χ² 등으로 평가하고, 포아송 가정의 적합성은 Pearson 잔차와 과산포(overdispersion) 검정을 통해 확인한다.
7. 주요 결과
- λ 회귀: 교육 수준(β≈0.12), 규정 지식(β≈0.08) 등이 위법 횟수 증가와 유의하게 연관. 남성보다 여성, 연령이 높은 집단에서 λ이 낮았다.
- θ 회귀: 신뢰 점수가 높을수록 θ가 감소(β≈−0.45), 즉 신뢰가 높은 응답자는 SP 행동을 덜 보였다. 이해 점수는 θ에 큰 영향을 미치지 않았다.
- 모델 비교: ZIP‑RR이 단순 포아송‑RR보다 AIC가 112점 낮아 우수함을 확인. 영값 과잉이 실제 SP 행동에 기인함을 실증적으로 입증.
8. 논의 및 한계
- SP 정의가 “항상 비위법 답변”으로 단순화돼 실제 복합적인 회피 행동을 모두 포괄하지는 못한다.
- 무작위 장치 오류(프로그래밍 실수)가 결과에 미치는 영향은 모델에 명시적으로 포함했지만, 다른 설계 오류가 존재할 경우 추가 조정이 필요.
- 관측된 합계 점수는 다항/포아송 가정에 따라 제한되므로, 질문 수가 늘어나면 트렁케이션 효과가 커질 수 있다.
9. 결론
본 연구는 무작위 응답 설계에서 발생할 수 있는 자기보호 행동을 영‑인플레이션으로 모델링하고, 포아송‑RR과 결합한 ZIP 회귀 프레임워크를 제시함으로써 민감한 조사에서 실제 위법 비율을 보다 정확히 추정할 수 있음을 보여준다. 인구통계적 위험 요인과 설계에 대한 신뢰·이해도가 각각 위법 횟수와 자기보호 확률에 독립적으로 영향을 미친다는 점은 정책 입안자와 연구자가 무작위 응답 설계를 설계·해석할 때 중요한 지침이 된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기