Práticas recomendadas para áudio
Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Esta página contém recomendações sobre como fornecer dados de voz à
API Google Assistente. Essas diretrizes foram criadas para aumentar a eficiência e a precisão,
bem como os tempos de resposta razoáveis do serviço.
Pré-processamento de áudio
É melhor fornecer áudio que seja o mais limpo possível, usando um microfone de boa qualidade e bem posicionado. No entanto, aplicar ao áudio um processamento de sinal de redução de ruídos antes de enviá-lo ao serviço geralmente reduz a precisão do reconhecimento. O serviço foi projetado para lidar com áudios com ruídos.
Para os melhores resultados:
- Posicione o microfone o mais próximo possível do usuário, principalmente quando
houver ruído de fundo.
- evite recortar o áudio;
- não use controle de ganho automático (AGC);
- todo o processamento de redução de ruído deve ser desativado.
Idealmente:
- O nível de áudio precisa ser calibrado para que o sinal de entrada não seja cortado e os níveis de pico de áudio de fala atinjam aproximadamente -20 a -10 dBFS.
- O dispositivo precisa exibir características de amplitude versus
frequência aproximadas (+- 3 dB 100 Hz a 8.000 Hz).
- A distorção harmônica total precisa ser inferior a 1% de 100 Hz a 8.000
Hz com um nível de entrada de SPL de 90 dB.
Taxa de amostragem
Se possível, defina a taxa de amostragem da fonte de áudio como 16.000 Hz. Caso contrário, defina
sample_rate_hertz
para corresponder à taxa de amostragem nativa da fonte de áudio (em vez
de fazer uma nova amostragem).
Tamanho do frame
O Google Assistente reconhece o áudio ao vivo quando ele é capturado de um microfone.
O stream de áudio precisa ser dividido em frames e enviado em mensagens
AssistRequest
consecutivas. Qualquer tamanho de frame é aceitável. Frames maiores são mais
eficientes, mas aumentam a latência. Um frame com tamanho de 100 milissegundos é recomendado como
um bom equilíbrio entre latência e eficiência.
Exceto em caso de indicação contrária, o conteúdo desta página é licenciado de acordo com a Licença de atribuição 4.0 do Creative Commons, e as amostras de código são licenciadas de acordo com a Licença Apache 2.0. Para mais detalhes, consulte as políticas do site do Google Developers. Java é uma marca registrada da Oracle e/ou afiliadas.
Última atualização 2025-07-26 UTC.
[null,null,["Última atualização 2025-07-26 UTC."],[[["\u003cp\u003eThis page provides recommendations for submitting speech data to the Google Assistant API for optimal performance.\u003c/p\u003e\n"],["\u003cp\u003eFor best results, use a high-quality microphone, position it close to the user, avoid audio clipping and noise reduction processing, and disable automatic gain control.\u003c/p\u003e\n"],["\u003cp\u003eIdeally, calibrate audio levels to prevent clipping, maintain a flat frequency response, and minimize harmonic distortion.\u003c/p\u003e\n"],["\u003cp\u003eSet the audio source sampling rate to 16000 Hz if possible, or match the native rate, and use a frame size of around 100 milliseconds for a balance between latency and efficiency.\u003c/p\u003e\n"]]],[],null,["# Best Practices for Audio\n\nThis page contains recommendations on how to provide speech data to the\nGoogle Assistant API. These guidelines are designed for greater efficiency\nand accuracy as well as reasonable response times from the service.\n\nAudio pre-processing\n--------------------\n\nIt's best to provide audio that is as clean as possible by using a good quality\nand well-positioned microphone. However, applying noise-reduction signal\nprocessing to the audio before sending it to the service typically reduces\nrecognition accuracy. The service is designed to handle noisy audio.\n\nFor best results:\n\n- Position the microphone as close to the user as possible, particularly when background noise is present.\n- Avoid audio clipping.\n- Do not use automatic gain control (AGC).\n- All noise reduction processing should be disabled.\n\nIdeally:\n\n- The audio level should be calibrated so that the input signal does not clip, and peak speech audio levels reach approximately -20 to -10 dBFS.\n- The device should exhibit approximately \"flat\" amplitude versus frequency characteristics (+- 3 dB 100 Hz to 8000 Hz).\n- Total harmonic distortion should be less than 1% from 100 Hz to 8000 Hz at 90 dB SPL input level.\n\nSampling rate\n-------------\n\nIf possible, set the sampling rate of the audio source to 16000 Hz. Otherwise,\nset the [`sample_rate_hertz`](/assistant/sdk/reference/rpc/google.assistant.embedded.v1alpha2#google.assistant.embedded.v1alpha2.AudioInConfig) to match the native sample rate of the audio source (instead\nof re-sampling).\n\nFrame size\n----------\n\nThe Google Assistant recognizes live audio as it is captured from a microphone.\nThe audio stream must be split into frames and sent in consecutive\n`AssistRequest` messages. Any frame size is acceptable. Larger frames are more\nefficient, but add latency. A 100-millisecond frame size is recommended as a\ngood tradeoff between latency and efficiency."]]