최근 Immersive Audio가 화두가 되면서 3D 스피커 시스템에 대한 관심이 날로 높아지고 있다. 프로페셔널 및 투어링 오디오 계열에서는 L-Acoustics, d&b audiotechnik, Meyer Sound, EAW 등에서 관련 제품들을 이미 출시했거나 혹은 곧 출시 예정이며, 시네마 분야 및 홈씨어터 분야에서는 Auro3D와 Dolby Atmos가 경쟁하고 있다. 국내 방송 시장은 차세대 UHD 표준에 MPEG-H가 적용됨으로써 표준으로 굳어지게 되었고, 이밖에 전시 공간이나 설치 예술 등 다양한 스피커 레이아웃이 필요한 경우에는 Iosono나 Astro Spatial 등의 솔루션들이 준비되어 있으며 소프트웨어 기반으로는 SPAT Revolution이 잘 알려져 있다. 그러나 마이크로폰에서만큼은 정립된 표준이나 방법론들이 전혀 없다. 현재 시장에서 가장 널리 받아들여지고 있는 기법은 Ambisonic인데 시장에 등장한 대부분의 제품들이 1차 혹은 2차 Ambisonic에 그치고 있어서 정위감이나 표현력에 있어서 심각한 한계를 갖고 있다. 이번 호에는 Immsersive Audio의 시대를 맞아 현재 출시된, 혹은 가능한 3차원 마이크로폰 제품 및 기술에 대해 개략적으로 살펴볼 것이다.
Ambisonic 마이크로폰 진영
현재 시장에 출시된 대부분의 3D 마이크로폰이 Ambisonic 방식을 취하고 있기 때문에 Ambisonic 기술에 대해 간략히 다뤄보고자 한다. 1970년대에 이미 이론적 기반이 완성된 이 기술은 근본적으로는 우리가 이미 잘 알고 있는 MS(mid-side) 마이크로폰 테크닉과 거의 같다.
MS가 직관적이지 않은 이유는 인체가 소리를 듣는 방식과는 상당히 다르기 때문이다. 우리는 양쪽 귀를 통해 소리를 듣는 것이지 mid와 side를 구분해서 듣지 않기 때문이다. 하지만 스테레오 시그널을 MS로 다루는 방식은 많은 이점을 가져다준다. 가장 큰 특징으로는 후가공이 쉽다는 것이다. 센터 레벨과 사이드 레벨의 볼륨을 각각 조절할 수 있기 때문에 스테레오감, 즉 스테이징을 조절하기 위한 근본적인 접근이 가능하다. 이런 장점 때문에 기존에 LR방식으로 녹음한 소스도 MS방식으로 인코딩하여 수정하는 경우도 더러 있다.
Schoeps는 더블 MS 방식을 통해 적은 수량(3개)의 마이크로폰으로 서라운드를 구현했다.
독일의 마이크로폰 제조사 Shoeps는 MS 방식을 확장한 더블 MS 기술을 발표하기도 했다. Mid를 담당하는 지향성 마이크의 반대 방향으로 또 하나의 지향성 마이크를 둠으로써 전면 뿐 아니라 후면까지 사운드 이미지를 형성하는 것이다. 이 기술에서는 단 세 대의 마이크를 사용하게 되지만 Schoeps에서 제공하는 플러그인을 통해 출력되는 포맷은 L, C, R과 함께 LR 서라운드까지 출력하기 때문에 나중에 필터링을 통해 출력이 가능한 서브우퍼를 제외하고 5채널 서라운드에 훌륭하게 대응할 수 있게 된다.
Ambisonic 기술의 가장 기초적인 형태인 MS 스테레오 테크닉.
기본적으로는 센터 신호인 mid와 서로 역위상인 side 신호가 합쳐져 쉽게 후가공이 가능한 스테레오 포맷이 된다.
그렇다면 Ambisonic의 가장 기초인 1차 방식은 비슷한 테크닉으로
3차원 공간의 소리를 담을 수 있는 기술이라고 쉽게 유추할 수 있을 것이다. 다만 여기서부터는 MID 및 SIDE의 직접적인 정보를 담는 것이 아니라 4개의 지향성 마이크 캡슐을 통해 한 번의 변환을 거치게 된다. 여기서 A-format과 B-format이 나뉜다. 4개의 마이크로폰이 담고 있는 트랙, 즉 마이크 각각의 raw 데이터를 A-format이라고 한다면 B-format은 무지향 음량 정보인 W와 함께 3차원 각 방향으로의 W, X, Y 정보를 담고 있는 것이다. 트랙 수로 보면 같은 4개 트랙이지만 담고 있는 정보는 완전히 다르다. 이는 쉽게 말해서 XY 스테레오 기법으로 녹음한 트랙을 MS로 변환한 것과 같다. 이렇게 B-format으로 변환하고 나면 마치 MS처럼 다양한 가공이 가능하다. 공간감은 물론 중심 이미지의 음량, 그리고 특정 영역대의 소리를 키워 지향성을 형성하는 것까지 가능해진다.
Ambisonic B-format이 담고 있는 정보.
차수가 올라갈 수록 필요한 트랙 수는 늘어나지만 그만큼 정교한 위치감의 표현이 가능해진다.
물론 여기에도 한계가 있다. 바로 Ambisonic의 ‘차수’이다. Ambisonic B-format이 공간정보를 담을 때 기왕이면 촘촘하게 담아내는 것이 좋을 것이다. 또한 높은 주파수까지 지향성을 부여하려면 충분한 차수가 확보되어야 한다. 현재 시중에서 팔리고 있는 대부분의 Ambisonic 마이크는 단
4개의 캡슐로 인해 1차 Abisonic까지만 정보를 담을 수 있다. 현재 대부분의 VR 온라인 콘텐츠가 1차, 혹은 2차 까지만 Ambisonic을 지원하기 때문에 온라인 콘텐츠만을 제작하는데는 충분할지는 몰라도 음악용, 영화용으로는 턱없이 부족하다. 현재 시장에는 1차 Ambisonic에 대응하는 마이크들이 대부분이며 작은 스타트업 혹은 전문 업체들을 중심으로 8개 유닛을 사용한 2차 Ambisonic 마이크부터 32채널의 4차 Ambisonic 마이크
(4차 Ambisonic는 25채널이지만 스페어 유닛 등 현실적 이유로 7개의 마이크 유닛이 추가됨)까지 등장해 시장을 선도하고 있다. 현재 Ambisonic 마이크로폰의 당면한 문제점은 마이크 캡슐의 기술적인 문제와 더불어 차수를 높일 수록 한없이 많이 필요해지는 마이크로폰의 갯수다. 캡슐의 경우에 Ambisonic 마이크 특성상 구형으로 근접배치 해야 하는데, 이런 이유로
인해 잡음이 낮은 대구경 캡슐을 쓰기가 불가능하다. 이는 굉장히 실제적인 문제로, 캡슐이 작으면 진동 에너지를 작게 받아들일 수 밖에 없기 때문에 프리앰프에서 충분한 증폭을 해야해서 기본적으로 노이즈 플로어가 높을 수 밖에 없다. 이런 상황에서 Ambisonic 기술은 다량의 마이크로폰을 필요로 하기 때문에 각 시그널들의 노이즈 레벨이 합쳐지면 무시하지 못할 정도가 된다. 이 때문에 Ambisonic 기술을 이용한 현실적인 마이크 갯수는 8개 정도, 그러니까 2차 Ambisonic까지가 마지노선으로 여겨진다. 가장 큰 문제는 이 정도로는 하이-프로덕션 시장의 요구에 미치지 못한다는 것이다. 이에 따른 대안이 없을까?
마이크로폰 배치로 시간차 정보까지 담아내다
인간이 스테레오를 느끼는 방법에 대해 좀 더 생각해보자. 인체의 양쪽 귀는 음원의 위치가 변하면 음량의 차이로도 변화를 인식하지만 양쪽 귀에 도달하는 시간의 미세한 차이까지도 정교하게 알아챈다. 하지만 XY 마이크 테크닉이나 MS 마이크 테크닉이 그러했던 것처럼 Ambisonic 테크닉은 상하좌우의 시간차 정보를 전혀 담아내지 못한다.
이에 착안한 방식이 바로 ORTF와 AB 마이크 테크닉이다. 이 방식은 별개의 마이크를 거리를 충분히 띄워서 배치하기 때문에 충분히 큰 마이크로폰 유닛을 사용할 수 있으며 그렇기에 대체로 결과물의 음질에서 매우 만족할만하다. 다만 전용 마이크로폰 어레이나 리그가 있지 않은 이상 휴대성 면에서는 손해를 볼 수 밖에 없다.
앞서 MS의 경우처럼 AB와 ORTF도 각각 서라운드 버전과 3D 확장판이 존재한다. 바로 OCT와 Surround ORTF가 그것이다. OCT의 경우 충분히 확장된 마이크 스탠드를 설치해야 하기 때문에 규모 면에서 상당하게 되지만 무지향성 마이크 특유의 자연스러운 음색이 장점이다.
Surround ORTF는 반면 훨씬 가볍고 휴대가 편해 윈드쉴드 킷에 내장할 수 있을 정도다. 이런 특성 때문에 클래식 등의 음악 레코딩에는 OCT 기법이 주로 사용되고 스포츠 중계나 필름 레코딩, 방송 현장 등에서는 Surround ORTF가 주로 사용된다.
이렇게 완성도 높은 서라운드 어레이 기법에 상단 어레이를 확장시킨 것이 3D 마이크 어레이의 기본 개념이다. 이에 따라 마찬가지로 3D-OCT와 3D-ORTF 기법이 현재 고음질을 필요로 하는 Immersive 녹음에서 가장 각광받고 있다.
사운드미러 코리아의 황병준 감독이 Immersive 사운드를 위해 실험적으로 진행한 세션이다.
OCT를 바탕으로 상단 레이어로 확장한 후 ORTF 마이크를 추가하는 방식을 사용했다.
취재진은 현장 레코딩이 어떻게 실제로 진행되는지 궁금증을 해결하기 위해 사운드미러 코리아 황병준 감독의 실험적인 세션에 참여한 적이 있다. 당시 황병준 감독은 OCT 기법을 바탕으로 상단에 레이어를 확장했으며 중앙에 ORTF를 추가하는 방식을 사용해 자연스러우면서도 현장감 있는 음색을 얻어냈다. 3D-OCT 방식의 변형판이라고 할 수 있겠다.
3D-ORTF는 고음질로 모바일 녹음 세션이 가능한 유일한 솔루션이다.
다만 3D-OCT 방식 특유의 엄청난 물량, 스팟 마이크로폰을 위한 별도의 트랙도 녹음하기 위해 상당한 양의 멀티트랙 레코딩 시스템이 필요했기 때문에 방송이나 필름 레코딩 등에는 적합하지 않다.
반면 3D-ORTF는 특유의 콤팩트한 크기 덕분에 현재 BBC의 스포츠 중계 등 다양한 분야의 방송과 필름 레코딩에 사용되고 있다. 3D-OCT와의 음색적인 차이는 다소 존재하지만 퀄리티보다는 성향 차이로 봐야 하는 차이 정도이며, 가장 중요한 장점으로는 단지 8개의 마이크 유닛만 사용하기 때문에 시중에서 쉽게 구할 수 있는 8트랙 필드레코더 기기로 어디에서나 모바일 녹음 세션이 가능하다는 것이다.
Immsersive 시대를 준비하는 치열한 경쟁
아직 3D 마이크 기술이 보급되려면 시기상조이긴 하다. 당장 대부분의 상업용 포스트 스튜디오에서조차 3D 모니터링 시스템을 갖춘 곳은 손에 꼽을 정도다. 하지만 앞으로의 추세는 분명하다. 현재 500편 이상의 영화가 3D 음향을 사용해 제작되고 있으며 게임, VR 콘텐츠의 시장이 점점 넓어지고 있다. 제조사들이 앞다퉈 3D 마이크 및 관련 기술을 출시하고 있는 이유가 분명한 셈이다. 한국의 하드웨어 제조 시장은 상당히 침체되었으나 아직 늦지 않았다. 3D 마이크로폰 기술에 있어서 현재 가장 큰 한계는 바로 인코딩/디코딩 소프트웨어 및 플러그인이다. 또한 콘텐츠에 유통에 있어서도 이미 UHD 표준에 MPEG-H가 적용됨으로써 인프라가 마련되었다. 앞으로의 시대를 선점하려면 과감히 먼저 움직이는 자세가 필요할 것이다.