얼굴 소리 (Face Sound: The Resonance of Self)

박현우

Interactive media installation, 2025

이 작품 "얼굴 소리"는 "내 얼굴의 소리는 무엇일까?"라는 근원적인 질문에서 시작되었습니다. 청각 장애인이 자신의 이름을 표현하기 위해 얼굴 표정과 움직임을 사용하는 것처럼, 개인의 고유한 얼굴 이미지를 그 사람을 기억할 수 있는 고유한 소리로 변환하여 사람들에게 시각과 청각을 아우르는 새로운 차원의 정체성 경험을 제공하고자 합니다. 작품은 실시간 카메라 영상 속 얼굴의 색상, 밝기, 움직임 등의 시각적 특징을 분석하여, 이를 주파수와 진폭 정보로 변환하는 과정을 통해 아날로그적인 파형을 만들어냅니다. 특히 여러 얼굴이 감지될 경우, 각 얼굴의 소리를 중첩하여 나와 친구의 소리', '우리의 소리'가 어떻게 공명하고 조화를 이루는지 실험하고 보여주는 데 초점을 맞추었습니다.

시스템 설계

1. 실시간 얼굴 감지 및 크롭:

카메라로 들어온 영상에서 Haar Cascade 알고리즘을 사용해 얼굴을 실시간으로 감지합니다. Face 토글이 켜져 있으면, 감지된 각 얼굴을 사운드 생성에 최적화된 정사각형 이미지로 크롭합니다. 얼굴이 움직여도 부드럽게 크롭 영역을 유지하는 스무딩 기법을 적용했습니다.

2. 이미지-멜 스펙트로그램 변환:

크롭된 얼굴 이미지의 픽셀 정보를 분석하여 멜 스펙트로그램 으로 변환합니다. 밝기는 사운드의 에너지에 대응됩니다. 색상은 멜 주파수 밴드의 분포(음색)에 영향을 줍니다.

3. 다중 얼굴 사운드 믹싱:

감지된 얼굴 수만큼 개별적인 멜 스펙트로그램을 생성합니다. 각 멜 스펙트로그램은 Additive Synthesis 기반의 알고리즘을 통해 개별적인 Waveform으로 변환됩니다. 여러 얼굴의 Waveform은 서로 평균하여 믹싱되어 하나의 중첩된 소리를 만듭니다.

4. 시각화:

카메라 영상: 실시간 얼굴 영상을 제공합니다. 멜 스펙트로그램: 감지된 얼굴 수만큼 영역이 정사각형으로 분할되어 각 얼굴의 현재 소리 특징을 시각적으로 보여줍니다. Waveform: 믹싱된 최종 사운드의 파형을 실시간으로 표시합니다.