음성으로 조작하는 스크래치, 장애 아동을 위한 새로운 접근

본 논문은 마우스 기반 드래그‑앤‑드롭이 어려운 운동 장애 아동을 위해, 음성 명령만으로 스크래치 코드를 편집할 수 있는 MeowCrophone 시스템을 제안한다. 다단계 매칭 파이프라인과 숫자 오버레이를 활용해 인식 오류를 보정하고, 82.8%의 전체 정확도(단순 명령 96.9%)를 달성하였다.

저자: Elias Goller, Gordon Fraser, Isabella Graßl

음성으로 조작하는 스크래치, 장애 아동을 위한 새로운 접근
본 논문은 시각적 블록 프로그래밍 환경인 스크래치(Scratch)가 마우스 기반 드래그‑앤‑드롭 인터페이스를 사용함으로써, 미세한 손 움직임이 어려운 운동 장애 아동에게 큰 진입 장벽이 된다는 문제를 제기한다. 기존 연구는 시각 장애인을 위한 접근성에 초점을 맞추었지만, 물리적 입력 자체를 대체하는 솔루션은 부족했다. 이러한 격차를 메우기 위해 저자들은 MeowCrophone이라는 음성 제어 시스템을 설계·구현하였다. MeowCrophone은 스크래치 에디터와 병행해 동작하는 독립 애플리케이션으로, 사용자는 마우스나 키보드 없이 음성 명령만으로 블록을 클릭·배치·연결하고, 스프라이트와 변수 등을 관리할 수 있다. 시스템 설계 과정에서 처음에는 브라우저 자동화 도구를 이용해 마우스 클릭을 흉내냈으나, 화면 해상도·줌·좌표 변동에 취약함을 발견하고, Scratch‑Blocks(Blockly) 내부 API와 Scratch VM을 직접 호출하는 방식으로 전환하였다. 이를 통해 블록 생성·연결·삭제를 프로그램적으로 수행하고, 상태 일관성을 보장하였다. 특히, Shadow Block(기본값을 제공하는 비드래그 블록)의 동기화 문제를 해결하기 위해 VM을 권위 있는 상태로 활용하였다. 음성 인식 정확도는 교육 현장과 어린이·운동 장애 사용자의 특성상 낮은 편이다. 저자들은 이를 보완하기 위해 세 단계 매칭 파이프라인을 구축하였다. 첫 단계는 사전 정의된 명령어와 정확히 일치하는 문자열을 찾는 ‘Exact Matching’이며, 두 번째 단계는 Double Metaphone(영어)·Cologne Phonetics(독일어)를 이용해 발음이 비슷한 단어를 매칭하는 ‘Phonetic Matching’이다. 세 번째 단계는 Levenshtein 거리 기반의 ‘Fuzzy Matching’으로, 가장 유사한 후보를 선택한다. 각 단계는 신뢰도 점수를 부여하고, 최종적으로 가장 높은 점수를 가진 결과를 실행한다. 이 구조는 특히 어린이의 발음 오류, 억양 변화, 그리고 dysarthria와 같은 언어 장애를 가진 사용자의 전사 오류를 효과적으로 복구한다. 사용자 인터페이스 측면에서 MeowCrophone은 ‘숫자 오버레이’ 방식을 도입하였다. 화면에 표시되는 블록·스프라이트·버튼에 고유 번호를 부여하고, “클릭 5”와 같은 짧은 명령으로 목표 요소를 선택한다. 오버레이는 ‘Combined’(음성+숫자 동시), ‘Smart’(음성 전용), ‘Numerical’(숫자 전용) 세 모드로 전환 가능해, 사용자의 선호와 환경 소음 수준에 맞춰 최적의 입력 방식을 제공한다. 또한 ‘Push‑to‑Talk’와 ‘Toggle‑to‑Talk’ 두 가지 트리거 방식을 제공해 우발적 인식을 방지하고, 명령 실행 시 시각적 피드백(오버레이 색상 변화·확인 메시지)을 즉시 제공한다. 평가에서는 세 가지 연구 질문(RQ1‑RQ3)을 설정하였다. RQ1은 스크래치 주요 기능이 음성 UI로 지원되는가를, RQ2는 접근성 표준을 충족하는가를, RQ3는 음성 인식 정확도가 파이프라인을 통해 개선되는가를 묻는다. 기능 지원과 접근성 평가는 WCAG와 NAUR 기반 28개의 기준을 사용해 수동·자동 검증을 수행했으며, 블록 배치·연결·삭제, 스프라이트 이동·코스튬 편집, 변수·리포터 관리 등 모든 핵심 기능이 ‘완전 지원’으로 평가되었다. 접근성 측면에서도 피드백 제공, 명령 발견 가능성, 오류 복구 등 주요 항목을 충족하였다. 음성 인식 실험은 24개의 명령을 영어와 독일어, 두 마이크, 두 ASR 서비스(Vosk, Web Speech)로 조합해 192개의 시나리오를 수집하였다. 기본 Top‑Hypothesis(최고 후보)만을 사용했을 때 전체 성공률은 46.4%에 불과했으며, 독일어에서는 27.1%에 머물렀다. 그러나 MeowCrophone의 매칭 파이프라인을 적용한 후 전체 정확도는 82.8%로 크게 상승했고, 단순 명령(예: “place block”)에서는 96.9%에 달했다. 이는 교실과 같은 소음이 많은 환경, 그리고 발음이 불명확한 어린이·운동 장애 사용자를 대상으로도 실용적인 수준임을 입증한다. 결론적으로 MeowCrophone은 스크래치와 같은 블록 기반 교육 도구에 음성 기반 접근성을 성공적으로 통합한 사례이며, 다단계 매칭, 내부 API 활용, 숫자 오버레이 등 설계 패턴은 향후 다른 시각·조작 중심 교육 소프트웨어에도 적용 가능할 것으로 기대된다. 향후 연구에서는 실제 장애 아동을 대상으로 한 장기 사용성 평가와, 보다 복잡한 프로그래밍 구조(예: 사용자 정의 블록, 확장 기능) 지원을 확대하는 방향을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기