Bonnes pratiques pour l'audio
Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Cette page contient des recommandations sur la manière de fournir des données vocales à l'API Assistant Google. Ces instructions visent à améliorer l'efficacité et la précision du service, ainsi qu'à obtenir des temps de réponse raisonnables.
Prétraitement du contenu audio
Il est préférable de fournir un contenu audio aussi propre que possible en utilisant un micro de bonne qualité et bien positionné. Cependant, le fait d'appliquer un traitement de signal de réduction de bruit au contenu audio avant de l'envoyer au service réduit généralement la précision de la reconnaissance. Le service est en effet conçu pour gérer les contenus audio bruyants.
Pour des résultats optimaux, procédez comme suit :
- Placez le micro le plus près possible de l'utilisateur, en particulier en cas de bruit de fond.
- Évitez les découpages audio.
- N'utilisez pas le contrôle automatique du gain (CAG).
- Tout traitement de réduction du bruit doit être désactivé.
Dans l'idéal:
- Le niveau audio doit être calibré de sorte que le signal d'entrée ne soit pas coupé et que les niveaux audio de voix maximales atteignent environ -20 à -10 dBFS.
- L'appareil doit présenter des caractéristiques d'amplitude par rapport à la fréquence approximativement "plates" (+- 3 dB de 100 Hz à 8 000 Hz).
- La distorsion harmonique totale doit être inférieure à 1% entre 100 et 8 000 Hz à un niveau d'entrée de 90 dB SPL.
Taux d'échantillonnage
Si possible, définissez le taux d'échantillonnage de la source audio sur 16 000 Hz. Sinon, définissez sample_rate_hertz
pour qu'il corresponde au taux d'échantillonnage natif de la source audio (au lieu de ré-échantillonner le contenu).
Taille de trame
L'Assistant Google reconnaît le son en direct tel qu'il est enregistré par un micro.
Le flux audio doit être divisé en trames et envoyé dans des messages AssistRequest
consécutifs. Toutes les tailles de trames sont acceptables. Les trames plus grandes sont plus efficaces, mais elles augmentent la latence. Une taille de trame de 100 millisecondes est recommandée, car elle constitue un bon compromis entre latence et efficacité.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/07/26 (UTC).
[null,null,["Dernière mise à jour le 2025/07/26 (UTC)."],[[["\u003cp\u003eThis page provides recommendations for submitting speech data to the Google Assistant API for optimal performance.\u003c/p\u003e\n"],["\u003cp\u003eFor best results, use a high-quality microphone, position it close to the user, avoid audio clipping and noise reduction processing, and disable automatic gain control.\u003c/p\u003e\n"],["\u003cp\u003eIdeally, calibrate audio levels to prevent clipping, maintain a flat frequency response, and minimize harmonic distortion.\u003c/p\u003e\n"],["\u003cp\u003eSet the audio source sampling rate to 16000 Hz if possible, or match the native rate, and use a frame size of around 100 milliseconds for a balance between latency and efficiency.\u003c/p\u003e\n"]]],[],null,["# Best Practices for Audio\n\nThis page contains recommendations on how to provide speech data to the\nGoogle Assistant API. These guidelines are designed for greater efficiency\nand accuracy as well as reasonable response times from the service.\n\nAudio pre-processing\n--------------------\n\nIt's best to provide audio that is as clean as possible by using a good quality\nand well-positioned microphone. However, applying noise-reduction signal\nprocessing to the audio before sending it to the service typically reduces\nrecognition accuracy. The service is designed to handle noisy audio.\n\nFor best results:\n\n- Position the microphone as close to the user as possible, particularly when background noise is present.\n- Avoid audio clipping.\n- Do not use automatic gain control (AGC).\n- All noise reduction processing should be disabled.\n\nIdeally:\n\n- The audio level should be calibrated so that the input signal does not clip, and peak speech audio levels reach approximately -20 to -10 dBFS.\n- The device should exhibit approximately \"flat\" amplitude versus frequency characteristics (+- 3 dB 100 Hz to 8000 Hz).\n- Total harmonic distortion should be less than 1% from 100 Hz to 8000 Hz at 90 dB SPL input level.\n\nSampling rate\n-------------\n\nIf possible, set the sampling rate of the audio source to 16000 Hz. Otherwise,\nset the [`sample_rate_hertz`](/assistant/sdk/reference/rpc/google.assistant.embedded.v1alpha2#google.assistant.embedded.v1alpha2.AudioInConfig) to match the native sample rate of the audio source (instead\nof re-sampling).\n\nFrame size\n----------\n\nThe Google Assistant recognizes live audio as it is captured from a microphone.\nThe audio stream must be split into frames and sent in consecutive\n`AssistRequest` messages. Any frame size is acceptable. Larger frames are more\nefficient, but add latency. A 100-millisecond frame size is recommended as a\ngood tradeoff between latency and efficiency."]]