머신러닝 개인화, 과연 개인을 얼마나 반영하는가
본 논문은 머신러닝(M L) 개인화가 “사람을 특징 벡터로 전환한다”는 은유에 기반함을 밝히고, 이를 인간주의적 인간 개념과 대비한다. 행동주의적 가정, 좁은 예측 범위, 그리고 ‘커뮤니티’ 선택이라는 세 가지 핵심 특성을 제시하고, 인스타그램 Explore 사례를 통해 실제 구현 과정을 분석한다. 마지막으로 개인 데이터와 GDPR 등 법적·윤리적 함의를 논의하며, 개인화 수준을 평가할 수 있는 차원을 제안한다.
저자: Travis Greene, Galit Shmueli
본 논문은 현대 사회에서 일상적으로 경험하는 머신러닝 기반 개인화가 실제로 ‘개인’이라는 존재를 얼마나 충실히 반영하고 있는지를 비판적으로 검토한다. 서두에서 저자들은 개인화가 흔히 사용되는 용어임에도 불구하고 학술적 정의가 부재하거나 다른 개념(맞춤화, 정밀 마케팅)과 혼용되는 현상을 지적한다. 이를 바로잡기 위해 ‘개인화’를 “각 사용자에게 고유한 점수를 부여하고, 그 점수를 기반으로 맞춤형 서비스·콘텐츠를 제공하는 과정”으로 정의하고, 이 과정이 내포하는 메타포—‘사람을 특징 벡터로 전환한다’—를 중심으로 분석을 전개한다.
**2절에서는 머신러닝 개인화의 기술적 흐름을 상세히 설명한다.** 대부분의 상업용 개인화 엔진은 명시적 선호, 인구통계학적 정보, 그리고 관찰된 행동(구매, 클릭, 저장 등)을 수집한다. 이 데이터는 비정형 텍스트·이미지·동영상 등을 구조화된 형태로 변환하고, 최종적으로 ‘특징 벡터’ 혹은 ‘사용자 임베딩’이라는 수치 배열에 매핑된다. 저자는 이 과정을 그림 1에 시각화하며, 인간을 복합적 사회·문화적 존재로 보는 인간주의적 관점과는 달리, 머신러닝은 사람을 고정된 차원 수의 점으로 축소한다는 점을 강조한다.
**세 가지 핵심 특성**이 이어서 제시된다. 첫째, **행동주의**는 관찰 가능한 행동만을 데이터로 삼아 인간의 내적 의도·신념을 배제한다. 이는 ‘측정 가능한 것이 진실’이라는 전제 하에, 측정이 어려운 행동은 노이즈 혹은 불필요한 차원으로 간주되어 차원 축소 과정에서 제거된다. 둘째, **예측 범위의 제한**은 모델이 특정 애플리케이션에 맞춘 좁은 행동 집합만을 예측하도록 설계된다는 점이다. 예를 들어, 친구·배우자와의 대화 예측 실험에서 협업 필터링이 인간보다 높은 정확도를 보였지만, 이는 이미 인간이 사전에 ‘가능한 농담 집합’을 좁힌 뒤 평가했기 때문이다. 셋째, **커뮤니티 의존성**은 개인화 점수가 다수 사용자의 데이터(‘커뮤니티’)에 기반한다는 점이다. 이때 선택된 커뮤니티가 사용자의 사회·도덕적 정체성과 일치하지 않으면, 개인화 수준이 낮아진다. 저자는 ‘가장 유사한 이웃’ 선택이 오류 최소화 지표(RMSE 등)에 최적화될 뿐, 정체성 기반이 아니라는 점을 비판한다.
**3절에서는 인스타그램 Explore**를 사례연구로 제시한다. 인스타그램은 사용자가 방문한 계정 ID 시퀀스를 기반으로 ‘계정 임베딩’을 생성하고, 이를 통해 토픽 유사성을 추정한다. 후보 콘텐츠 500개를 무작위 추출한 뒤, 150개, 50개, 최종 25개로 단계별 필터링·순위 매김을 수행한다. 각 단계는 계산 효율성과 다양성 확보를 목표로 하며, 최종 순위는 ‘가치 모델’(좋아요·저장·더 보기 등 행동에 대한 예측 확률 가중치)으로 결정된다. 여기서 가중치는 엔지니어가 정의한 것이며, 사용자의 실제 의도와는 차이가 있을 수 있다. 이러한 설계는 인간주의적 관점에서 볼 때, 사용자의 내적 정체성·사회적 역할을 충분히 반영하지 못한다는 비판을 받는다.
**4절에서는 ‘인간’과 ‘개인 데이터’에 대한 철학적·법적 고찰**을 진행한다. ‘person’이라는 개념은 라틴어·그리스어에서 유래된 ‘마스크’를 의미하며, 외적 역할(사회적 정체성)과 내적 의식(자아)이라는 이중 구조를 가진다. GDPR은 개인 데이터를 ‘식별 가능한 정보’로 정의하고, 자동화된 의사결정에 대한 설명권·잊혀질 권리를 보장한다. 그러나 머신러닝 개인화는 데이터가 어떻게 구조화·차원 축소되는지에 대한 투명성을 제공하기 어렵다. 저자는 개인화 수준을 평가하기 위한 **세 가지 차원(행동주의 정도, 예측 범위, 커뮤니티 일치성)**을 제안하고, 이를 통해 알고리즘 편향·투명성·공정성 논의에 실질적인 기준을 제공하고자 한다.
결론적으로, 논문은 현재 널리 사용되는 머신러닝 개인화가 인간주의적 ‘인간’ 개념과는 근본적으로 차이가 있음을 강조한다. 개인화가 진정으로 ‘개인’에게 맞춰지려면, 행동 데이터만이 아니라 사용자의 내적 의도·사회적 정체성을 반영하는 메커니즘이 필요하며, 이를 위한 법적·윤리적 프레임워크와 평가 기준이 동시에 마련되어야 함을 주장한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기