취재 | 인공지능이 만든 목소리 카지노 사이트, 관련 기술과 전망은

중견 가수 윤수일이 지난달 발매된 최신 가요 〈APT.〉를 부르는 영상이 화제를 모으고 있다. 이것은 정말 윤 씨의 목소리일까? 반은 맞고 반은 틀렸다. 윤 씨 목소리의 음향 특성을 학습한 인공지능이 이를 기반으로 곡조에 맞게 노래를 출력해 만들어진 영상이기 때문이다. 이런 기술을 일컬어 ‘카지노 사이트’라고 한다. 

 

◇말한 적 없는 문장이 자연스러운 내 음성으로=‘카지노 사이트’(Deep Voice)란 인공신경망을 이용한 학습 방법을 가리키는 ‘딥러닝’과 목소리를 뜻하는 영어 단어 ‘보이스’의 합성어다. 권순복 교수(부산대 언어정보학과)는 “특정인의 음향 특성을 학습한 모델에 문장을 입력하면 마치 그가 말하는 듯한 음성이 출력되는 것이 카지노 사이트 기술”이라고 설명했다. 카지노 사이트의 등장은 이미 존재하는 녹음본을 잘라 붙이는 데 그치던 기존 음성 편집 기술의 전환점이 됐다. 홍기훈 교수(숭실대 전자정보공학부)는 “구글이 2017년 딥러닝 모델 ‘타코트론’(Tacotron)을 개발하며 음성 편집 기술이 전보다 훨씬 자연스러워졌다”라고 말했다. 그는 “이전 세대까지 편집된 음성은 로봇 음성처럼 딱딱하고 기계적이었지만, 현재 기술은 억양과 어조 등 말하는 습관도 학습해 산출물에 반영해 발화자의 가족조차 음성의 진위를 구별하기 힘들다”라고 설명했다. 

카지노 사이트로 만들어낸 새로운 음성이 자연스러운 이유는 카지노 사이트 기술이 조음 방식을 스스로 학습하기 때문이다. 홍 교수는 “기존의 음성 편집 기술은 하나의 자모음에 고정된 발음을 연결하지만, 딥러닝 모델은 학습을 거듭하며 음운변동에 따라 발음이 달라짐을 터득한다”라며 “카지노 사이트 산출물은 이를 반복하며 점차 실제 사람의 발화에 가까워진다”라고 말했다. 이처럼 카지노 사이트 기술은 입력된 음성의 특성을 벗어나는 예외적인 사례에도 대처할 수 있기 때문에, 아예 새로운 음성도 출력해 낼 수 있다. 사용자가 입력한 텍스트를 음성화해 출력하는 기술 모델 ‘음성합성’(Text To Speech, TTS)이 그 대표적인 예시다.

*특성값: 데이터의 속성이나 특징을 수치화한 값.

 

◇가짜와 진짜 목소리는 구별될 수 있을까=기술 발전으로 ‘가짜 음성’ 생성이 손쉬워졌으나, 자연 음성과 가짜 음성의 구분이 아예 불가능한 것은 아니다. 특히 음성 편집 기술 개발 초기에는 음성 특성이 시각화된 스펙트로그램을 분석하는 것이 자연 음성과 합성 음성 구분에 유용하게 사용됐다. 녹취분석연구소 이철형 소장은 “스펙트로그램은 음성 주파수의 변화와 강도가 선형적으로 정리된 시각 자료”라며 “합성 음성의 스펙트로그램은 자연 음성에 비해 연속성이 떨어져 이것이 녹음본의 진위를 판단하는 데 중요한 역할을 차지한다”라고 설명했다. 

그런데 최근 카지노 사이트 기술이 고도화돼 합성 음성 생성 과정이 복잡해짐에 따라, 기존 분석법으로는 음성의 진위를 판가름하기 어렵다는 지적이 제기된다. 홍기훈 교수는 “자연 음성과 합성 음성의 차이를 구분할 수 있는 지표가 되는 딥러닝 모델의 특성값*은 수백만 개에 이르는데, 이를 모두 파악하거나 명확한 체계 아래 목록화하는 것은 불가능에 가깝다”라며 “따라서 음성의 합성 여부 판단 또한 매우 어렵다”라고 밝혔다. 

이처럼 음성의 합성 여부를 따지기 어려워진 오늘날, 카지노 사이트 생산자가 음성합성 여부를 의무적으로 고지하는 제도가 필요하다는 지적이 제기된다. 홍기훈 교수는 “아직 카지노 사이트를 정확히 탐지해 낼 기술이 마련되지 않았기에 합성 음성 생산자가 그 음성에 식별할 수 있는 워터마크를 의무적으로 넣게 하는 제도를 고려할 수 있다”라고 제언했다. 권순복 교수도 “앞으로 대중매체에서 카지노 사이트가 활용되는 경우 학술 논문에 각주를 달듯 음성의 생성 경위와 출처를 명시하는 절차가 제도화된다면 좋은 선례가 될 것”이라고 말했다. 

 

◇카지노 사이트 기술, 어떻게 바라봐야 하나=카지노 사이트가 특정인의 억양과 어조마저 능숙하게 모사한다는 사실은 사람들이 목소리를 신뢰하지 않는 결과로 이어질 수 있다. 권순복 교수는 “사회심리학자인 앨버트 메라비언에 따르면 의사소통 중 신뢰 관계 형성에 목소리가 기여하는 비중은 38퍼센트로, 발화 내용은 7퍼센트밖에 영향을 미치지 않는다”라고 밝혔다. 이어 권 교수는 “진위를 의심해야 하는 합성 음성이 만연해질 경우 사회 전반에서 의사소통에 대한 신뢰가 저해될 우려가 있다”라고 지적했다. 이철형 소장 또한 “이전까지는 음성이 사람을 구분하는 변별 인자로서 상당한 신뢰도를 확보한 데이터였지만 이제는 그 지위가 붕괴되고 있다”라고 말했다.

이런 우려에도 불구하고, 전문가들은 말할 수 없는 사람의 목소리가 돼줄 수 있다는 카지노 사이트의 순기능을 고려하면 그 활용 방안을 다각도로 검토해야 한다고 말한다. 권순복 교수는 “세상을 떠난 이의 음성이 그리울 때 생전 녹음해 둔 목소리가 있다면 이를 모델에 학습시켜 마치 그가 말하는 것 같은 상황을 경험할 수 있다”라고 설명했다. 이철형 소장은 “카지노 사이트 기술은 신경계 질환을 앓으며 목소리를 잃은 환자의 생각을 실시간으로 음성 변환해 출력하는 데도 활용된다”라며 “목소리를 잃은 사람의 상실감이 이런 기술을 통해 어느 정도 채워지기도 한다”라고 설명했다. 결국 중요한 것은 악용 가능성을 줄이고 기술의 효용을 늘리는 일이라는 것이다. 홍기훈 교수는 “기술 관련 법안은 그 기술이 활용될 여러 가능성을 고려해 유연하게 마련돼야 한다”라고 당부했다. 

 

카지노 사이트 기술은 그 생성 과정에서의 변수만큼이나 복잡한 쟁점들로 얽혀 있다. 기술의 순기능과 역기능만을 견주는 기존의 구도를 걷어내고, 기술의 발전 가능성과 그것이 시사하는 전망에 집중할 필요가 있다. 카지노 사이트는 어떤 미래를 가질 수 있을까. 

저작권자 © 지니 카지노v 무단전재 및 재배포 금지