게시판

[일본서버뉴스] "보이스피싱 잡는다" 딥러닝 기술로 음성 딥페이크 탐지

profile_image
디스페이스
2025.02.04 09:09 51 0
  • - 첨부파일 : 화면 캡처 2025-02-04 090816.png (272.4K) - 다운로드

본문

#일본서버#일본IDC#일본호스팅#DspaceIDC#디스페이스IDC

최근 윤석열 대통령 탄핵 찬성 집회에서는 인공지능(AI)으로 윤 대통령 목소리를 합성한 노래가 울려 퍼졌다. AI로 음성을 학습하는 딥러닝(인공신경망을 활용한 심층 학습) 기술은 구분이 어려운 수준까지 빠르게 고도화하고 있다.

문제는 이런 음성 딥페이크가 보이스피싱이나 선거 관련 가짜뉴스 등에 악용된다는 점이다.

딥페이크 부작용을 막기 위해 정보기술(IT) 업계에서는 사람의 음성과 AI 합성 음성을 구분하는 탐지 기술 연구가 활발히 일어나고 있다.

4일 정보통신기획평가원의 주간기술동향 보고서에 따르면 음성 딥페이크 탐지 기술의 핵심 원리는 두 음성의 차이를 분석하는 것이다. 주파수와 음향적 특징 등 차이를 인식하려면 음성 데이터세트를 구성하고 딥러닝 모델에 학습시켜야 한다.

모델은 고유한 주파수 척도를 사용해 다양한 대역을 분석한다. 딥페이크 음성의 고주파 성분은 사람 음성과 다르기 때문에 이 차이를 통해 구분할 수 있다.

하지만 텍스트 음성 변환(TTS) 모델들이 갈수록 발전하고 있어 주파수만으로 탐지하기엔 한계가 있다. 최근에는 대규모 음성 말뭉치를 통해 판별 대상의 음색과 억양 등 음향적 특징을 학습하는 기술이 활용되고 있다


이렇게 음성 특징이 추출되면 탐지 모델이 차이를 구분한다. 최신 탐지 기술은 '어시스트'(AASIST)와 '콘포머'(Conformer)라는 딥러닝 모델을 사용한다.

어시스트 모델은 음성의 주파수와 시간 정보를 학습한다. 그래프 데이터를 처리할 때 중요한 특징에 가중치를 부여하는 딥러닝 모델 '그래프 어텐션 네트워크'(GAT)를 이용하기 때문에 스푸핑(음성 합성·변조) 여부를 정확히 탐지할 수 있다.

콘포머 모델은 '콘볼루션'(Convolution)과 '트랜스포머'(Transformer) 2개 모듈의 장점을 활용한다. 콘볼루션은 짧은 구간 내 세부 패턴을 학습해 음성의 지역적 특성을 잘 포착한다. 트랜스포머는 신호의 전역적 특징을 잘 학습해 긴 문맥 속 정보를 효과적으로 파악한다.

덕분에 콘포머는 긴 문맥과 세부 패턴의 정보를 모두 인지할 수 있어 음성 인식 성능을 크게 향상한다.

탐지 기술 성능 평가에는 평균 오류율(EER)이 활용된다. 잘못된 대상을 올바른 것으로 잘못 판단하는 비율(FAR)과 올바른 대상을 거부하는 비율(FRR)이 같은 지점의 오류율로, 이 값이 낮을수록 성능이 우수하다.

다만 탐지 기술로도 완벽한 방어는 어렵다. 음성에 노이즈를 추가하거나 일부만 TTS로 합성해 부분 변조하는 등 새로운 위협이 등장했기 때문이다.

노이즈 삽입 등 적대적인 공격에는 샘플 훈련으로 대응한다. 다양한 적대적 샘플을 생성해 탐지 모델을 훈련하는 방법이다. 공격 방법을 모두 구현해야 하고 샘플마다 모델을 대상으로 실험해야 하므로 자원이 많이 소요된다.

부분 변조는 음성을 조각과 전체 단위로 각각 나누어 대응한다. 발화의 부분 단위인 '세그먼트 레벨'은 문장을 조각으로 분석해 어떤 부분이 변조됐는지 찾아낸다. 전체 문장 단위인 '발화 레벨'은 문장 전체가 변조됐는지 확인한다.

홍기훈 숭실대 전자정보공학부 교수는 "가짜 음성은 잘못된 정보를 전달할 수 있어 음성 딥페이크 탐지의 중요성이 커지고 있다"며 "국가와 연구 기관을 중심으로 다양한 연구를 진행하고 안전한 AI 활용 환경을 구축해야 한다"고 전했다.
신은빈 기자 (bean@news1.kr)
저작권에 문제가 있을 시 바로 삭제 하겠습니다.

댓글목록 0

등록된 댓글이 없습니다.