본문 바로가기
Tech 뉴스

아마존, 새로운 AI 음성 모델 '노바 소닉(Nova Sonic)' 공개… "GPT-4o보다 80% 저렴하고 더 빠르다"

by truthblaze7 2025. 4. 8.

아마존은 화요일, 음성을 자연스럽게 처리하고 생성할 수 있는 새로운 생성형 AI 음성 모델 노바 소닉(Nova Sonic)을 공개했습니다. 아마존은 이 모델이 속도, 음성 인식 정확도, 대화 품질을 측정하는 벤치마크에서 OpenAI와 구글의 최첨단 음성 모델들과 경쟁할 수 있을 만큼 뛰어난 성능을 보인다고 밝혔습니다.

노바 소닉은 ChatGPT의 음성 모드에 사용되는 최신 AI 음성 모델들에 대응하는 아마존의 전략입니다. 초기 아마존 알렉사(Alexa)의 딱딱한 말투와는 달리, 최근 음성 AI 기술의 발전은 디지털 어시스턴트들의 대화 방식에 큰 변화를 가져왔으며, 알렉사나 애플의 시리(Siri)와 같은 기존 모델들이 상대적으로 부자연스럽게 느껴지게 만들었습니다.

 

아마존은 이번에 노바 소닉을 기업용 AI 애플리케이션 개발 플랫폼 베드록(Bedrock)을 통해 새롭게 선보인 양방향 스트리밍 API로 제공한다고 밝혔습니다. 보도자료에서 아마존은 노바 소닉을 “가장 비용 효율적인 AI 음성 모델”이라며, OpenAI의 GPT-4o보다 약 80% 저렴하다고 강조했습니다. 아마존의 AGI(범용 인공지능) 부문 수석 부사장이자 수석 과학자인 로힛 프라사드(Rohit Prasad)는, 노바 소닉의 핵심 기술 일부가 이미 업그레이드된 디지털 음성 어시스턴트 ‘Alexa+’에 적용되고 있다고 밝혔습니다.

 

프라사드는 인터뷰에서, 노바 소닉은 아마존이 축적해온 ‘대규모 오케스트레이션 시스템’ 기술을 바탕으로 구축되었으며, 이는 알렉사의 기술 기반이기도 하다고 말했습니다. 경쟁 음성 AI 모델들과 비교했을 때, 노바 소닉은 사용자 요청을 다양한 API로 효율적으로 연결하는 능력이 뛰어나며, 이를 통해 실시간 정보 검색, 독점 데이터 파싱, 외부 애플리케이션 제어 등 필요한 기능을 스스로 인식하고 적절한 도구를 사용하는 데 강점을 지닌다고 설명했습니다.

 

노바 소닉은 대화 중 상대방의 말 중단이나 침묵을 인지하고 적절한 타이밍에 응답할 수 있도록 설계되었으며, 사용자의 발화를 텍스트로 전사하여 개발자들이 다양한 용도로 활용할 수 있도록 지원합니다.

또한, 노바 소닉은 다른 AI 음성 모델에 비해 음성 인식 오류가 적은 편입니다. 프라사드는 사용자가 말을 더듬거나, 잘못 말하거나, 소음이 있는 환경에서도 모델이 사용자의 의도를 잘 이해하는 편이라고 설명했습니다. 다국어 및 방언을 대상으로 한 음성 인식 벤치마크 Multilingual LibriSpeech에서 노바 소닉은 영어, 프랑스어, 이탈리아어, 독일어, 스페인어 평균 기준으로 단어 오류율(WER) 4.2%를 기록했습니다. 이는 100단어 중 약 4단어만이 사람의 전사 결과와 달랐다는 뜻입니다.

 

또한, 여러 사람이 동시에 말하는 상황을 측정하는 벤치마크 Augmented Multi Party Interaction에서는, 노바 소닉이 OpenAI의 GPT-4o-transcribe 모델보다 WER 기준 46.7% 더 높은 정확도를 기록했습니다. 아마존에 따르면, 노바 소닉은 속도 면에서도 업계 최고 수준으로, 평균 지연 시간 1.09초를 기록하며 OpenAI의 실시간 API(GPT-4o 기반)의 1.18초보다 더 빠릅니다. 이 수치는 AI 전문 분석업체 Artificial Analysis의 벤치마크 데이터를 기준으로 합니다.

 

프라사드는 노바 소닉이 아마존의 AGI(Artificial General Intelligence, 범용 인공지능) 전략의 일환이라고 밝혔습니다. 아마존은 AGI를 “사람이 컴퓨터로 할 수 있는 모든 일을 할 수 있는 AI 시스템”으로 정의하며, 앞으로 음성뿐 아니라 이미지, 영상, 기타 감각 데이터를 이해할 수 있는 AI 모델을 더 많이 선보일 계획이라고 전했습니다.

 

프라사드가 이끄는 AGI 부서는 최근 아마존의 제품 전략에서 더 중요한 역할을 맡고 있는 것으로 보입니다. 지난주 아마존은 웹 브라우저를 사용하는 AI 모델 ‘노바 액트(Nova Act)’의 프리뷰 버전을 공개했으며, 이는 Alexa+와 구매 도우미 기능인 Buy for Me에 사용되는 핵심 요소로 추정됩니다. 프라사드는 아마존이 내부에서 개발한 AI 모델들을 앞으로 개발자들에게 더 많이 공개할 예정이며, 그 첫걸음이 바로 이번 노바 소닉이라고 강조했습니다.