평균값과 표준오차의 유효숫자 결정법

이 논문은 평균값을 보고할 때 몇 자리까지 의미 있는 숫자인지를 정량적으로 판단하는 방법을 제시한다. 표준오차(SEM)의 첫 번째 혹은 두 번째 유효숫자와 평균값의 자리수를 비교해 “마지막 유효숫자”를 결정하는 규칙을 도출하고, 이를 뒷받침하는 시뮬레이션과 지표(DM, DSEM)를 제시한다. 결과적으로 평균값의 마지막 유효숫자는 SEM의 첫 번째 비영(0이 아닌) 자리와 같은 십진위치에 있거나, C=mean/SEM가 1~3이면 두 번째 비영 자…

저자: R. S. Clymo (School of Biological, Chemical Sciences, Queen Mary University of London)

평균값과 표준오차의 유효숫자 결정법
이 논문은 과학 연구에서 평균값을 보고할 때 몇 자리까지 의미 있는 숫자인지를 객관적으로 판단할 수 있는 방법을 제시한다. 서론에서는 많은 연구자들이 평균값과 표준오차(SEM)를 제시할 때, 어느 정도까지 소수점 이하를 포함시켜야 하는지에 대한 명확한 기준이 없으며, 흔히 쓰이는 “3자리” 혹은 “소수점 둘째 자리까지”와 같은 규칙이 경험적 근거가 부족함을 지적한다. 이를 해결하기 위해 저자는 가우시안 분포에서 평균 39.61500, SEM 1.33인 데이터를 8000개 샘플링하고, 각 십진 자리(10, 1, 0.1, 0.01 등)별로 0~9 숫자가 나타난 빈도를 표로 제시한다. 여기서 목표 자리의 숫자가 가장 빈번하게 나타나는지를 확인하고, 불균형 정도를 정량화하기 위해 “불균형 지수(IQ)”를 정의한다. IQ는 각 자리의 10개 숫자 빈도의 절대편차 합을 표준화한 값으로 0~1 사이이며, 0에 가까울수록 균등, 1에 가까울수록 특정 숫자가 지배함을 의미한다. 실험 결과, 상위 세 자리(10, 1, 0.1)에서는 IQ가 크게 감소하고, 이후 자리에서는 무작위 변동이 커져 IQ가 0.02 이하가 되는 지점을 “의미 없는 자리”로 판단한다. 이 기준을 바탕으로 평균값의 전체 유효숫자 양을 나타내는 연속 지표 DM을 정의하고, DM과 평균/SEM 비율 C=mean/SEM 사이의 관계를 그래프로 나타낸다. 그래프에서 DM≈log10(C) 선에 거의 일치함을 확인하고, 이를 정수화(ceil)하면 평균값의 유효숫자 개수를 얻을 수 있다. 이러한 실험적 관찰을 토대로 규칙 1A와 1B를 도출한다. 규칙 1A는 “평균값의 마지막 유효숫자는 SEM의 첫 번째 비영 자리와 같은 십진위치에 있다”는 내용이다. 즉, SEM이 0.025라면 첫 번째 비영 자리는 소수점 둘째 자리이므로 평균값도 소수점 둘째 자리까지 보고한다. 규칙 1B는 C=mean/SEM가 1~3 사이일 경우, SEM의 두 번째 비영 자리까지 고려해 평균값의 마지막 유효숫자를 정한다. 예를 들어, mean=34.63, SEM=25.62, C≈1.35이면 두 번째 비영 자리까지 포함해 평균을 35로 보고한다. 다음으로 SEM 자체의 유효숫자를 결정하는 규칙 2를 제시한다. 표본 크기 Ns에 따라 SEM의 유효숫자 개수를 1~5자리로 제한한다. Ns가 2~6이면 1자리, 7~100이면 2자리, 101~10 000이면 3자리, 10 001~1 000 000이면 4자리, 그 이상이면 5자리로 보고한다. 이는 SEM이 √Ns에 비례해 감소하면서, 100배 증가할 때마다 앞자리 하나가 사라지는 현상을 반영한다. 규칙 3은 백분율 표시와 관련된다. 표본이 100 이하인 경우 소수점 이하 두 자리까지 표시하면 과대보고가 되므로, 10 이하에서는 백분율 자체를 사용하지 말고, 11~20에서는 5% 단위, 21~50에서는 2% 단위, 51~100에서는 1% 단위, 그 이상에서는 0.1% 이하까지 표시한다. 마지막으로 0이 포함된 값의 표현 방법을 논한다. 예를 들어, raw mean이 0.0298699이고 D M=3이면 0.0300으로 보고하고, 298699와 같이 큰 수에서는 300 000(또는 3.00e5)으로 보고한다. 이는 “패킹 디짓”이라 부르는 의미 없는 0을 구분하기 위함이다. 결론에서는 이 분석이 순수히 정밀도(precision)만을 다루며, 편향(bias)이나 실험적 오류는 별도로 고려해야 함을 언급한다. 또한 규칙이 간단하면서도 근거 기반이므로, 연구 보고 시 신뢰성을 높이는 데 유용하다고 주장한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기