중랑장애인자립생활센터는
모두가 행복한 세상을 꿈꿉니다!

홈 > 커뮤니티 >

복지뉴스

장애인 방송 기술의 현황-③

작성자 2019-11-08 최고관리자

조회 1,369

장애인 방송 기술의 현황-③

AI기술 등 첨단기술 활용 위한 표준화와 DB 구축 등 시급

에이블뉴스, 기사작성일 : 2019-11-08 09:18:40

1편과 2편에 이어 장애인 관련 방송기술의 현황에 대해 살펴보면, 화면해설방송은 대사, 인물의 움직임, 소리 등 화면에 나타나는 정보를 바탕으로 시각장애인이 해당 상을 이해할 수 있도록 화면해설 작가가 대본을 쓴 뒤 성우가 녹음하고 이를 오디오 엔지니 어가 메인 오디오에 믹싱하여 보조 오디오로 제공하는 서비스를 말한다.

화면해설방송은 화면해설 작가의 작가적 능력과 시각장애에 대한 이해 정도가 중요하며 단순히 자막을 읽는 식으로는 제작되기 어렵다.

화면해설방송 콘텐츠를 제작하는 데 시간적, 경제적 요소를 줄이고, 콘텐츠의 양적 확대를 위한 방법의 하나로 소프트웨어를 이용한 방안을 제시하고 있다.

한편, 지상파를 비롯한 많은 매체에서 해외 화를 시청할 수 있으나 대부분 시각장애인이 감상할 수 없는 자막을 제공하고 있는 경우가 많다.

외국 작품을 보는 데 있어서 자막은 본 작품 그대로를 느낄 수 있는 장점이 있지만, 외국어에 익숙하지 않은 이들에게는 몰입도가 떨어지는 단점이 있다.

한편, 자막을 대체할 수 있는 더빙은 본 작품과 다른 구석이 있지만, 시청 집중도는 더 높일 수 있다.

시각장애인의 입장에서 외화 더빙은 단순히 한 편의 화를 감상하는 데 그치는 것이 아니라 시각장애인의 문화 향유권을 담보하는 중요한 수단으로, 외국의 유수한 외화들을 도움 없이 감상할 수 있는 거의 유일한 수단이다.

이를 극복하는 방법으로서는 대부분의 프로그램에서 자막을 제공하고 있어, Text to Speech(TTS) 기술을 이용하여 자막을 음성합성을 통해 오디오로 제공하는 이른바 음성 자막(Spoken Subtitle)을 고려해 볼 수 있다.

다만, 사용할 수 있는 음성이 제한되어 있고, 대부분이 낭독체이기 때문에 감정을 주고받는 대화체 위주의 방송에 적용하기 위해서는 감정 표현이나 인물의 특성을 어느 정도 반하는 진화된 음성합성기술이 필요하다.

최근 구글과 같은 로벌 기업을 필두로 대용량 음성데이터에 바탕을 둔 딥러닝 기반 음성합성기술이 비약적으로 발전하고 있다.

구글의 Tacotron은 Sequence-to-Sequence 모델에 기반을 두고 있으며 가장 자연스러운 음성을 표현한다.

네이버에서는 음성 데이터양을 1/10로 줄여 적은 음성데이터만으로 음성 합성이 가능하고 웨이브넷 보코더를 결합시켜 음질을 개선한 하이브리드 음성 합성 엔진을 발표하고 있다.

이러한 음성합성기술의 발전은 목소리에 감정을 추가하여 표현할 수 있는 종단 간 감정 음성 합성시스템에 대한 연구로 이어지고 있다.

한국전자통신연구원에서는 Tacotron-2와 Global Style Token을 이용하여 감정 표현을 가능하게 감정 음성 합성기술에 대해 개발을 진행하고 있으며, 향후 딥러닝을 이용한 감정 음성 합성기술과 콘텐츠 저작 도구의 연결로 전문 화면해설작가가 작성한 대본이나 방송 자막을 기반으로 마치 성우가 녹음 한 것과 같은 품질을 갖는 화면해설방송이나 음성 자막을 제작, 서비스할 수 있는 날이 머지않은 것으로 판단된다.

현재의 장애인방송에 있어 편성 목표만 달성하고자 하는 수동적인 자세로는 시·청각장애인의 만족도를 높이기 어렵다. 콘텐츠의 제작에 있어서도 감성적인 측면을 고려하는 것이 질적 만족도를 향상시킬 수 있을 것이다.

또한, 최근 디지털콘텐츠의 폭발적 증가는 효과적인 자료 검색을 위해 특정 자료의 내용 및 성격 등에 대한 메타데이터 구축이 필수적이다.

기존에는 직접 상을 살펴보면서 메타데이터를 입력하지만, 최근에는 딥러닝을 이용하여 상/오디 오/자막을 분석하고, 등장인물의 표정 등을 식별하여 자동으로 메타데이터를 구축하는 서비스도 등장하고 있다.

검색을 위한 메타데이터의 구축과 더불어 콘텐츠에 감성적인 효과를 반함으로써 질적 만족도를 높이기 위해서는 감성 또는 감정과 관련된 정보를 자동으로 추출하고, 이를 서비스 대상 콘텐츠에 적절하게 표현해 줌으로써 앞서 언급한 개량형 자막, 수화, 음성 자막에서 등장인물의 감정과 내용을 효과적으로 시·청각장애인에게 전달할 수 있다.

영상에서 특정 인물을 찾거나 표정 분석을 통해 감정을 인식하는 서비스로 마이크로소프트사의 ‘Cognitive Service’가 알려져 있다.

오디오 분야에서는 복수의 등장인물이 등장하는 오디오에서 화자 구분, 음성역 추출을 위해 딥러닝을 이용한 ‘Speaker Diarizartion’에 대한 연구가 이루어지고 있다.

오디오로부터 추출되는 정보는 음성인식에 의해 생성되는 자막과 함께 내용에 따라 폰트의 크기나 색 등을 다르게 가져가며, 상에서는 등장인물의 구분과 위치, 표정을 인식하고 인물을 가리지 않는 부분에 자막을 표현할 수 있도록 자막 위치를 정의할 수 있다.

이는 상과 오디오로부터 등장인물들의 대화, 캐릭터 특징, 감정과 관련된 정보를 추출하고 이를 시·청각장애인을 대상으로 하는 콘텐츠 생성에 활용함으로써 상황에 대한 이해를 쉽게 전달할 수 있다.

[2020년 에이블뉴스 칼럼니스트 공개 모집]

-장애인 곁을 든든하게 지켜주는 대안언론 에이블뉴스(ablenews.co.kr)-

-에이블뉴스 기사 제보 및 보도자료 발송 ablenews@ablenews.co.kr-

칼럼니스트 김경식 (bioman92@hanmail.net)