이 페이지에는 Google Assistant API에 음성 데이터를 제공하는 방법에 관한 권장사항이 포함되어 있습니다. 이 가이드라인은 서비스의 응답 시간을 합리적으로 개선하고 효율성과 정확성을 높이기 위해 마련되었습니다.
오디오 사전 처리
우수한 품질의 잘 배치된 마이크를 사용하여 가능한 선명한 오디오를 제공하는 것이 가장 좋습니다. 오디오를 서비스에 보내기 전에 오디오에 노이즈 감소 신호 처리를 적용하면 일반적으로 인식 정확도가 떨어집니다. 이 서비스는 노이즈가 많은 오디오를 처리하도록 설계되었습니다.
최상의 결과를 얻는 방법
- 특히 배경 소음이 있는 경우 마이크를 최대한 사용자와 가까이 배치합니다.
- 오디오를 자르지 마세요.
- 자동 게인 제어(AGC)를 사용하지 마세요.
- 모든 노이즈 감소 처리를 중지해야 합니다.
이상적인 방법은 다음과 같습니다.
- 입력 신호가 클립되지 않고 최대 음성 오디오 레벨이 약 -20~-10dBFS에 도달하도록 오디오 레벨을 보정해야 합니다.
- 기기는 주파수 특성 (+-3dB 100Hz~8000Hz)에 대한 대략적인 '고정' 진폭을 표시해야 합니다.
- 90dB SPL 입력 수준에서 100Hz~8,000Hz의 총고조파왜곡은 1% 미만이어야 합니다.
샘플링 레이트
가능하면 오디오 소스의 샘플링 레이트를 16,000Hz로 설정합니다. 그렇지 않으면 다시 샘플링하지 않고 sample_rate_hertz
를 오디오 소스의 기본 샘플링 레이트와 일치하도록 설정합니다.
프레임 크기
Google 어시스턴트는 마이크에서 캡처된 라이브 오디오를 인식합니다.
오디오 스트림은 프레임으로 분할되어 연속 AssistRequest
메시지로 전송되어야 합니다. 모든 프레임 크기가 허용됩니다. 프레임이 클수록 효율적이지만 지연 시간이 추가됩니다. 지연 시간과 효율성 간의 절충안으로 100밀리초 프레임 크기가 권장됩니다.