스프레드시트 함수 활용 분석이 제시하는 예시 기반 모델링의 가치
본 논문은 기존 설문조사가 주로 산업별 활용 목적에 초점을 맞춘 반면, 스프레드시트의 함수(연산자) 사용 패턴을 분석함으로써 프로그래밍적 관점에서 오류 원인을 탐구한다. 11개의 Excel 함수 클래스와 실제 현장 조사 결과를 비교하고, 수학·논리 함수가 압도적으로 많이 쓰이는 현상을 확인한다. 이러한 사용 특성을 바탕으로 저자는 머신러닝 기반의 Example Driven Modelling(EDM)을 제안하여 오류 감소와 의사결정 지원 시스템(…
저자: Simon Thorne, David Ball
본 논문은 스프레드시트가 기업·기관 전반에 걸쳐 전략적 의사결정 도구로 자리 잡은 현황을 서술하면서, 기존 연구가 주로 산업별 활용 목적(예: 최적화, ‘what‑if’ 분석)이나 오류 발생 비율에 초점을 맞추어 왔음을 지적한다. 이러한 접근은 스프레드시트가 실제 어떤 프로그래밍 구조를 사용하고 있는지에 대한 통찰을 제공하지 못한다는 한계를 가진다.
이를 보완하기 위해 저자는 Excel이 제공하는 11개의 함수 클래스를 기준으로, 각 클래스가 포함하는 연산자 수(데이터베이스 12, 날짜·시간 20, 재무 53, 엔지니어링 39, 정보 18, 논리 6, 조회·참조 17, 수학·삼각 60, 통계 78, 텍스트 35, 외부링크 5)를 제시한다. 이후 세 차례의 현장 조사 결과를 종합한다. 첫 번째는 Lotus 123 사용자 256명을 대상으로 한 Chan & Storey(1996)의 설문으로, 수학·통계 함수 사용 빈도가 가장 높고 목표 탐색 함수는 거의 사용되지 않음을 보여준다. 두 번째는 Ballinger et al.(2003)이 259개의 대학 성적 관리 워크북을 분석한 결과로, 논리와 수학 함수가 현저히 많이 사용된 반면, 다른 클래스는 거의 나타나지 않았다. 세 번째는 SERP 프로젝트(2006)에서 35개의 실제 비즈니스 스프레드시트를 분석한 결과이며, 모든 워크북이 수학 함수를, 약 80%가 논리 함수를 포함하고 있었다.
세 조사 모두 수학 함수가 거의 보편적으로 사용된다는 공통점을 보이며, 논리 함수 역시 높은 비중을 차지한다. 이는 모델러가 복잡한 사전 정의 함수보다 기본 연산자를 활용해 자체적인 모델을 구축하는 경향이 있음을 시사한다. 저자는 이러한 현상이 Napiers(1989, 1992)의 연구와 일맥상통한다고 언급한다. Napiers는 스프레드시트 사용자가 제공된 기능의 대부분을 인식하지 못하고, 단순 연산에 의존한다는 점을 밝혀냈다.
오류 연구 측면에서 논문은 기존 연구가 모델 전체에 대한 오류 비율(30%~100%)을 제시했지만, 오류 원인이나 함수별 취약점을 구체적으로 파악하지 못했다고 비판한다. 함수 클래스별 사용 빈도가 명확히 드러났으므로, 향후 연구에서는 각 클래스·연산자별 오류 발생률을 정량화하고, 위험도가 높은 스프레드시트를 사전에 식별할 수 있는 방법론을 개발해야 한다고 주장한다.
이러한 필요성에서 출발한 것이 Example Driven Modelling(EDM)이다. EDM은 사용자가 몇 개의 대표적인 입력‑출력 예시를 제공하면, 머신러닝 알고리즘이 이를 학습해 일반화된 규칙을 도출한다. 도출된 규칙은 새로운 데이터에 자동 적용되며, 기존의 수동식 함수 입력 방식보다 오류 전파를 최소화한다. 특히 의사결정 지원 시스템(DSS)에서 ‘what‑if’ 시나리오를 반복적으로 생성해야 할 때, 사용자는 복잡한 함수 조합을 일일이 설계할 필요 없이 예시만으로 모델을 갱신할 수 있다.
EDM의 장점은 다음과 같다. 첫째, 모델 구축 과정에서 인간이 직접 연산자를 선택·조합하는 오류를 줄인다. 둘째, 학습된 모델은 새로운 상황에 자동으로 적응하므로 유지보수 비용이 감소한다. 셋째, 머신러닝 기반 검증 메커니즘을 통해 모델 정확도를 지속적으로 모니터링할 수 있다.
하지만 EDM 적용에는 몇 가지 과제가 남아 있다. 학습용 예시가 충분히 다양하고 대표성을 가져야 하며, 데이터에 편향이 있으면 모델 자체가 잘못된 결론을 도출한다. 또한, 어떤 머신러닝 알고리즘이 스프레드시트 함수 구조를 가장 효과적으로 학습할 수 있는지에 대한 연구가 필요하다. 저자는 향후 연구에서 함수 클래스별 오류 발생률을 정밀히 측정하고, EDM과 기존 검증 기법(예: 셀‑레벨 감사, 테스트 케이스 기반 검증)을 비교하는 실증 연구를 수행할 것을 제안한다.
결론적으로, 스프레드시트의 함수 사용 패턴을 분석함으로써 오류 발생 메커니즘을 보다 구조적으로 이해할 수 있으며, 이를 토대로 제안된 Example Driven Modelling은 DSS 환경에서 오류를 감소시키고 모델링 효율성을 높이는 유망한 접근법으로 평가된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기