인간 다중로봇 팀을 위한 후회 기반 의사결정 및 큐 관리 모델

본 논문은 로봇이 인간에게 서비스를 요청할지 여부를 후회 이론으로 판단하고, 다수 로봇의 요청을 최적 큐 순서로 배치하는 알고리즘을 제안한다. 또한 도메인 탐색을 위한 동적계획법 기반 경로 계획을 설계하여, 인간 작업 부하와 팀 성능 사이의 균형을 향상시킨다.

저자: Longsheng Jiang, Yue Wang

인간 다중로봇 팀을 위한 후회 기반 의사결정 및 큐 관리 모델
본 논문은 인간‑다중로봇 팀이 도메인 탐색 작업을 수행할 때, 인간의 감정 중 하나인 ‘후회’를 정량화한 후회 이론을 로봇의 의사결정 및 서비스 대기 관리에 적용한다. 연구 배경으로는 저비용 소형 로봇이 대규모로 배치될 경우 비용 효율성과 견고성을 확보할 수 있지만, 센서 정확도가 낮아 인간과의 협업이 필요하다는 점을 들었다. 인간은 작업 부하가 크고 피로도가 높아지면 전체 시스템 성능이 저하되므로, 로봇이 인간에게 서비스를 요청할지 스스로 판단하도록 하는 것이 핵심 과제이다. 먼저 로봇은 각 셀을 탐색하면서 자체 센서로 얻은 관측 Y_r가 정확( y_c )인지 오류( y_w )인지를 확률 p_r 로 추정한다. 옵션 R은 로봇이 자체 판단을 유지하는 경우이며, 정확하면 비용 0, 오류이면 비용 c(y_w)<0을 발생시킨다. 옵션 H는 인간에게 원격 조작을 요청하는 경우로, 정확도는 100 %이지만 고정 비용 c_H<0을 가진다. 전통적인 기대값(ev) 방식은 ev = c_H − (1−p_r)c(y_w) 로 계산해 ev>0이면 인간 서비스를 선택한다. 그러나 기대값은 인간이 실제 보이는 위험 회피·추구 행동을 반영하지 못한다. 이에 저자는 후회 이론 기반 순이익 e_r(c_H, c_R) = Σ_{k=1}^2 w_k(p_r) Q(Δc_k)/c_range 로 정의한다. 여기서 Q(Δc)=α_1 sinh(α_2 Δc)+α_3 Δc는 비용 차이에 대한 후회 감정을 비선형적으로 변환하고, w(p_r)=exp(−β_1−log(p_r)β_2)는 확률에 대한 주관적 가중치를 제공한다. 파라미터 α_i, β_i는 개인별 감정 특성을 나타내며, 기존 실험 데이터와 일치하도록 설정한다. 순이익이 양수이면 옵션 H, 음수이면 옵션 R을 선택한다. 다중 로봇이 동시에 옵션 H를 선택하면 인간은 한 번에 하나만 응답할 수 있다. 따라서 로봇들의 요청을 대기열에 배치해야 하는데, 각 대기 위치 n에 따라 인간 서비스 비용 c_Hn이 감소한다( c_H1>c_H2>…>c_HM ). 저자는 각 로봇 r에 대해 옵션 집합 C_r = {c_H1,…,c_HM, c_R} 를 정의하고, 순이익 e_r(c_Hn, c_R) 가 c_Hn에 대해 단조 증가함을 정리 1로 증명한다. 이를 이용해 전체 대기열 순이익 G(P)= Σ_{r∈R_H} e_r(c_{r},c_R) 를 최대화하는 최적 순열 P*를 정의한다. 하지만 N!에 가까운 순열 공간을 전부 탐색하면 계산량이 급증한다. 따라서 저자는 휴리스틱 알고리즘 1을 제안한다. 알고리즘은 먼저 순이익이 양수인 최대 대기 길이 M을 찾고, 순이익이 음수인 로봇은 서비스 거부한다. 이후 남은 로봇들을 뒤에서부터 순이익 감소폭 Δe_r(c_Hn, c_Hn+1) 가 가장 작게 되는 순서대로 배치한다. 이 과정은 정리 1에 의해 Δe<0임을 이용해 ‘긴급도’를 간접적으로 반영한다. 경로 계획은 두 가지 전략으로 구성된다. 첫 번째는 스위핑 전략으로, 각 셀을 한 번만 방문하고 모든 목표물을 찾으면 탐색을 종료한다. 이는 중복 방문을 방지해 효율적이지만, 탐색 중 오류가 발생했을 때 재시도가 불가능하다. 두 번째는 동적계획법(DP) 기반 경로 최적화로, 로봇의 현재 상태 (x, Y)와 믿음 b_Y(i)를 이용해 다음 방문 셀을 선택한다. 로봇은 선택된 셀 j로 이동 후 관측 o_p 혹은 o_a를 받고, 베이즈 업데이트를 통해 b_Y(j)를 갱신한다. 이 모듈은 경로 계획과 서비스 요청 판단을 독립적으로 설계했으며, 향후 두 모듈 간 상호작용을 통합하는 연구가 필요하다고 언급한다. 시뮬레이션에서는 2‑D 격자 도메인에 10대 로봇을 배치하고, 인간 서비스 비용 c_H와 센서 오류 비용 c(y_w)를 다양한 비율로 설정했다. 결과는 후회 기반 의사결정이 기대값 기반 대비 인간 작업 부하를 평균 15 % 감소시키고, 전체 탐색 시간은 8 % 단축시켰다. 위험 회피형 로봇(후회 함수가 큰 부정적 Δc에 민감)은 인간 서비스를 많이 요청해 부하를 증가시켰고, 위험 추구형 로봇은 자체 판단을 선호해 탐색 효율을 높였다. 대기열 최적화 휴리스틱은 대부분의 경우 최적 순열에 근접했으며, 계산 시간은 O(N^2) 수준으로 실시간 적용이 가능했다. 논문의 한계로는 실제 로봇 하드웨어 실험이 없고, 파라미터 α_i, β_i 를 어떻게 추정할지에 대한 구체적인 방법이 제시되지 않아 재현성이 낮다는 점을 들었다. 또한 대기열 휴리스틱이 최적성을 보장하지 않으며, 로봇 수가 크게 늘어날 경우 (N > 50) 성능 저하 가능성이 있다. 인간의 피로도, 감정 변화, 그리고 서비스 대기 시간에 따른 인간의 의사결정 변화를 모델링하지 않은 점도 비판된다. 향후 연구 방향으로는 (1) 실시간 인간 감정 및 피로도 측정을 통한 파라미터 적응 학습, (2) 대규모 로봇 집단에 대한 확장성 검증, (3) 경로 계획과 서비스 대기 관리의 통합 최적화, (4) 인간‑로봇 인터페이스를 통한 서비스 요청의 신뢰성 향상 등을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기