[나를 닮은 인공지능 EVA 개발기] Chapter 1. EVA 목소리 만들기 by 솔트룩스

지난 'SAC 2018' 행사 중 대화 모델 설명 부스

안녕하세요. 내가 만드는 인공지능? 내공지능! 팀의 김보경 연구원입니다.

내공지능팀은 업무단위를 크게 4가지 파트로 구분할 수 있어요.

·대화모델링 파트 ·3D캐릭터 디자인 파트 ·음성생성 파트 ·서버/개발 파트로 이루어져 있습니다.

그 중에서 내 목소리를 흉내내는 인공지능, EVA 이야기를 해볼까 합니다.

잠깐! EVA 프로젝트가 뭐냐고요?

온 국민 1인 1 AI 시대를 표방하는 ‘에바(EVA)’ 서비스 플랫폼은 영화 허(her) 속의 AI인 사만다처럼

자신의 인간 주인과 대화하고 닮아가며 학습, 진화할 수 있는 인공지능이에요.

EVA의 형태는 나를 닮을 수도, 비서가 될 수도, 홈페이지에서 비즈니스 안내자 역할을 할 수도 있죠.

인공지능의 목소리가 어떻게 만들어 질까요?

음성 생성 시스템 타코트론2는 인간 발성과 유사한 수준의 발성 능력을 지닌

텍스트 음성 변환 시스템이에요.

구글의 인공지능 관련 기업이자 알파고를 개발한 딥마인드(DeepMind)가 공개한 기술이죠.

자! 이제 본격적으로 이야기해 볼까요? 인공지능 목소리로 뭘 하려고 하나요?

사람의 음성은 각기 다른 성향과 말투를 갖고 있어요.

인공지능 목소리를 생성하는 목적은 사람의 목소리와 발음 억양까지 재현하려는 것이죠.

음성 생성 시스템에 학습시킬 대상은 사용자의 용어와 말투에요.

대화를 통해 자주 사용하는 용어/말투를 학습시켜 목소리를 복제하는데 의의를 두고 있죠.

예를 들어, 영화평론가의 음성을 학습시킨다면 용어,말투,억양까지 재현해 낼 수 있답니다.

보헤미안 랩소디 영화정보에요! 이 영화는 팝 역사의 전설 '퀸'의 음악 여정을 잘 다룬 영화같아요.

캐릭터만 덩그러니 있으니 재미가 없네요. 어서 Bella에게 목소리를 만들어 주고 싶어요.

첫째, 녹음 스크립트를 작성해요.

※ 스크립트 작성 시 주의할 점은 다음과 같아요.

1. 쉼표(,) 마침표(.) 물음표(?) 느낌표(!) 이외의 기호는 모두 제거합니다.

2. 일관된, 통일된 언어를 사용합니다.

딥러닝 기반 End-to-End 방식의 음성합성 솔루션은 모델마다 각 모델의 특성에 맞는 목소리와 발화 패턴을 합성합니다. 예를 들면, '이번 주말에는 뭐 할까?'라는 동일한 입력 텍스트에 모델 특성에 맞는 목소리와 발화 패턴을 합성합니다. 이러한 특성을 모델에 잘 반영하기 위해서 학습데이터의 스크립트를 일관된 용어로 통일합니다.

3. 표준 띄어쓰기를 지킵니다.

둘째, 음성학습 데이터를 생성하기 위해 내 목소리를 녹음해 봅시다!

※ 음성 녹음할 시 주의할 점은 다음과 같아요.

1. 대본에 충실하여 읽어야 합니다.

2. 녹음을 진행하면서 녹음의 시작과 끝에 생길 수 있는 무음 구간을 최소화해야 합니다.

3. 녹음 과정에서 발화자 개인의 특성을 일정하게 유지해야 합니다.

4. 서비스의 특성상 목소리 톤을 높고 밝게 유지하며, 또박또박 읽어야 합니다.

5. 문법 기호에 따른 톤 조정

- . (점) : 말을 마치는 듯한 느낌으로 목소리 톤 끝을 내립니다

- , (쉼표) : 잠시 숨을 쉽니다

- ! (느낌표) : 감탄하듯이 연기합니다

- ? (물음표) : 물어보듯이 문장의 끝을 올려서 읽습니다

6. 띄어쓰기를 지켜서 읽습니다.

셋째, 문장단위로 끊어 녹음해 주는 앱을 써봅시다.

저는 편리하게 녹음하기 위해서 HumanRecorder 라는 앱을 회사에서 제공받아 사용했어요.

적게는 4시간, 충분히는 8시간을 녹음을 하면 제법 제 목소리와 비슷해진답니다.

HumanRecorder 앱 녹음 화면

넷째, 스크립트 문장 키와 음성파일명을 일치 시킵니다

작성한 스크립트와 음성파일이 보이죠?

음성학습 데이터 후처리 작업

최종 산출물을 제출할 시 주의할 점은 다음과 같아요.

1. 각 음성 데이터의 스크립트가 페어링 되어야 합니다.

2. 파일 확장자 : TXT 혹은 CSV 형태로 작성합니다.

3. UTF-8 변환 : Notepad를 활용하여 [인코딩]-[UTF-8(BOM없음)으로 변환] 클릭하고 저장합니다.

제 목소리를 흉내 낸 Bella EVA의 목소리는 TTS Stream 서버에서 추출했어요.

이 음성 메시지는 제 목소리를 8시간 학습한 결과입니다.

제가 AI Labs사업본부에서 제일 처음 전달받은 음성이에요

벨라 음성학습 테스트입니다. 보경씨 마음에 드시나요?

처음 듣고는 무서울 정도로 소름이 돋았어요.

그런데 이제 이러고 놀아요.

제 Bella EVA에게 CCO실 워크샵에서 발표 좀 대신해달라고 시켰어요.

벨라가 주인 목소리를 흉내 내는 모습

다음 편 예고 : Chapter 2. EVA 캐릭터 생성기

Adobe 프로그램과, Unity 엔진으로 탄생하는 캐릭터 생성이야기!

많은 기대 부탁드릴게요!