Índice
EmbeddedAssistant
(interfaz)AssistConfig
(mensaje)AssistRequest
(mensaje)AssistResponse
(mensaje)AssistResponse.EventType
(enumeración)AudioInConfig
(mensaje)AudioInConfig.Encoding
(enumeración)AudioOut
(mensaje)AudioOutConfig
(mensaje)AudioOutConfig.Encoding
(enumeración)DebugConfig
(mensaje)DebugInfo
(mensaje)DeviceAction
(mensaje)DeviceConfig
(mensaje)DeviceLocation
(mensaje)DialogStateIn
(mensaje)DialogStateOut
(mensaje)DialogStateOut.MicrophoneMode
(enumeración)ScreenOut
(mensaje)ScreenOut.Format
(enumeración)ScreenOutConfig
(mensaje)ScreenOutConfig.ScreenMode
(enumeración)SpeechRecognitionResult
(mensaje)
EmbeddedAssistant
Servicio que implementa la API de Asistente de Google
Asistencia | |
---|---|
Inicia o continúa una conversación con el servicio de Asistente incorporado. Cada llamada realiza un recorrido de ida y vuelta; envía una solicitud de audio al servicio y recibe la respuesta de audio. Usa una transmisión bidireccional para recibir resultados, como el evento Una conversación es una o más conexiones gRPC, cada una de las cuales consta de varias solicitudes y respuestas transmitidas. Por ejemplo, el usuario dice Agregar a mi lista de compras y Asistente responde ¿Qué quieres agregar?. La secuencia de solicitudes y respuestas transmitidas en el primer mensaje de gRPC podría ser la siguiente:
Luego, el usuario dice bagels y Asistente responde: "De acuerdo, agregué bagels" a tu lista de compras. Esto se envía como otra llamada de conexión de gRPC al método
Aunque no se garantiza el orden preciso de las respuestas, los mensajes
|
AssistConfig
Especifica cómo procesar los mensajes AssistRequest
.
Campos | ||
---|---|---|
audio_out_config |
Obligatorio: Especifica cómo dar formato al audio que se mostrará. |
|
screen_out_config |
Opcional: Especifica el formato deseado que se usará cuando el servidor muestre una respuesta visual de la pantalla. |
|
dialog_state_in |
Obligatorio Representa el estado actual del diálogo. |
|
device_config |
Configuración del dispositivo que identifica de forma exclusiva un dispositivo específico. |
|
debug_config |
Opcional: Parámetros de depuración para toda la RPC de |
|
Campo de unión
|
||
audio_in_config |
Especifica cómo procesar el audio entrante posterior. Obligatorio si se proporcionarán |
|
text_query |
Es la entrada de texto que se enviará a Asistente. Se puede propagar desde una interfaz de texto si la entrada de audio no está disponible. |
AssistRequest
El mensaje de nivel superior que envía el cliente. Los clientes deben enviar, al menos, dos mensajes de AssistRequest
, aunque suelen ser varios. El primer mensaje debe contener un mensaje config
y no debe contener datos audio_in
. Todos los mensajes posteriores deben contener datos audio_in
y no deben contener un mensaje config
.
Campos | ||
---|---|---|
Campo de unión type . Se debe especificar exactamente uno de estos campos en cada AssistRequest . type puede ser solo uno de los siguientes: |
||
config |
El mensaje |
|
audio_in |
Los datos de audio que se reconocerán. Los fragmentos secuenciales de datos de audio se envían en mensajes |
AssistResponse
El mensaje de nivel superior que recibe el cliente. Se transmite una serie de uno o más mensajes AssistResponse
al cliente.
Campos | |
---|---|
event_type |
Solo salida indica el tipo de evento. |
audio_out |
Solo salida: Es el audio que contiene la respuesta del Asistente a la consulta. |
screen_out |
Solo salida: Contiene la respuesta visual del Asistente a la consulta. |
device_action |
Solo salida: Contiene la acción activada por la consulta con las cargas útiles adecuadas y el análisis semántico. |
speech_results[] |
Solo salida: Esta lista repetida contiene cero o más resultados de reconocimiento de voz que corresponden a partes consecutivas del audio que se está procesando, comenzando por la parte que corresponde al audio más antiguo (y la más estable) a la parte que corresponde al audio más reciente. Las cadenas se pueden concatenar para ver la respuesta completa en curso. Cuando se complete el reconocimiento de voz, la lista contendrá un elemento con |
dialog_state_out |
Solo salida: Contiene un resultado relacionado con la consulta del usuario. |
debug_info |
Información de depuración de solo salida para el desarrollador. Solo se muestra si la solicitud configuró |
EventType
Indica el tipo de evento.
Enumeradores | |
---|---|
EVENT_TYPE_UNSPECIFIED |
No se especificó ningún evento. |
END_OF_UTTERANCE |
Este evento indica que el servidor detectó el final del enunciado de voz del usuario y que no espera que siga hablando. Por lo tanto, el servidor no procesará audio adicional (aunque puede que muestre resultados adicionales de forma posterior). El cliente debe dejar de enviar datos de audio adicionales, cerrar de forma parcial la conexión de gRPC y esperar cualquier resultado adicional hasta que el servidor también la cierre. |
AudioInConfig
Especifica cómo procesar los datos de audio_in
que se proporcionarán en solicitudes posteriores. Para ver las opciones de configuración recomendadas, consulta las prácticas recomendadas del SDK de Asistente de Google.
Campos | |
---|---|
encoding |
Obligatorio: Es la codificación de los datos de audio enviados en todos los mensajes |
sample_rate_hertz |
Obligatorio: Es la tasa de muestreo (en hercios) de los datos de audio enviados en todos los mensajes de |
Codificación
Es la codificación de audio de los datos enviados en el mensaje de audio. El audio debe ser de un canal (mono).
Enumeradores | |
---|---|
ENCODING_UNSPECIFIED |
No se especifica. Se mostrará el resultado google.rpc.Code.INVALID_ARGUMENT . |
LINEAR16 |
Son las muestras de little-endian de 16 bits firmadas y sin comprimir (PCM lineal). Esta codificación no incluye encabezado, solo los bytes de audio sin procesar. |
FLAC |
FLAC (códec de audio sin pérdida gratuito) es la codificación recomendada porque no tiene pérdidas (por lo tanto, el reconocimiento no se ve comprometido) y requiere solo la mitad del ancho de banda de LINEAR16 . Esta codificación incluye el encabezado de la transmisión FLAC seguido de los datos de audio. Admite muestras de 16 y 24 bits. Sin embargo, no todos los campos de STREAMINFO son compatibles. |
AudioOut
Es el audio que contiene la respuesta de Asistente a la consulta. Se reciben fragmentos secuenciales de datos de audio en mensajes AssistResponse
secuenciales.
Campos | |
---|---|
audio_data |
Solo salida: Los datos de audio que contienen la respuesta del Asistente a la consulta. Se reciben fragmentos secuenciales de datos de audio en mensajes |
AudioOutConfig
Especifica el formato que debe usar el servidor cuando muestre mensajes audio_out
.
Campos | |
---|---|
encoding |
Obligatorio La codificación de los datos de audio que se mostrará en todos los mensajes |
sample_rate_hertz |
Obligatorio: Es la tasa de muestreo en hercios de los datos de audio que se muestran en los mensajes |
volume_percentage |
Obligatorio: Es la configuración del volumen actual de la salida de audio del dispositivo. Los valores válidos van del 1 al 100 (corresponde al 1% al 100%). |
Codificación
Es la codificación de audio de los datos mostrados en el mensaje de audio. Todas las codificaciones son bytes de audio sin procesar y sin encabezado, excepto como se indica a continuación.
Enumeradores | |
---|---|
ENCODING_UNSPECIFIED |
No se especifica. Se mostrará el resultado google.rpc.Code.INVALID_ARGUMENT . |
LINEAR16 |
Son las muestras de little-endian de 16 bits firmadas y sin comprimir (PCM lineal). |
MP3 |
con codificación de audio MP3. La tasa de muestreo está codificada en la carga útil. |
OPUS_IN_OGG |
Audio codificado en Opus que se une a un contenedor ogg. El resultado será un archivo que se puede reproducir de forma nativa en Android y en algunos navegadores (como Chrome). La calidad de la codificación es considerablemente mayor que la de MP3, pero con la misma tasa de bits. La tasa de muestreo está codificada en la carga útil. |
DebugConfig
Parámetros de depuración para la solicitud actual
Campos | |
---|---|
return_debug_info |
Cuando este campo se establece como verdadero, se puede propagar el campo |
DebugInfo
Información de depuración para el desarrollador Solo se muestra si la solicitud configuró return_debug_info
como verdadero.
Campos | |
---|---|
aog_agent_to_assistant_json |
La respuesta JSON original de un agente de Action-on-Google al servidor de Google. Consulta AppResponse. Solo se propagará si el creador de la solicitud es propietario del proyecto de AoG y este se encuentra en modo de vista previa. |
DeviceAction
Es la respuesta que se muestra al dispositivo si el usuario activó una Acción del dispositivo. Por ejemplo, un dispositivo que admita la consulta Turn on the light recibirá un DeviceAction
con una carga útil de JSON que contendrá la semántica de la solicitud.
Campos | |
---|---|
device_request_json |
JSON que contiene la respuesta de comando del dispositivo generada a partir de la gramática de la acción del dispositivo activada. El intent |
DeviceConfig
Obligatorios Son los campos que permiten al Asistente identificar el dispositivo.
Consulta lo siguiente:
Campos | |
---|---|
device_id |
Obligatorio: Es el identificador único del dispositivo. El ID debe tener 128 caracteres o menos. Ejemplo: DBCDW098234. Este DEBE coincidir con el device_id devuelto por el registro del dispositivo. Este device_id se usa para buscar coincidencias con los dispositivos registrados del usuario a fin de buscar las características y capacidades compatibles de este dispositivo. Esta información no debería cambiar después de cada reinicio del dispositivo. Sin embargo, no se debe guardar después de restablecer la configuración de fábrica. |
device_model_id |
Obligatorio: Es el identificador único del modelo de dispositivo. La combinación de device_model_id y device_id se debe haber asociado previamente a través del registro del dispositivo. |
DeviceLocation
Hay tres fuentes de ubicaciones. Se usan con la siguiente prioridad:
- Este
DeviceLocation
, que se usa principalmente para dispositivos móviles con GPS . - Ubicación especificada por el usuario durante la configuración del dispositivo (es por usuario y por dispositivo). Esta ubicación se usa si no se especifica
DeviceLocation
. - Ubicación inferida basada en la dirección IP. Solo se usa si no se especifica ninguna de las opciones anteriores.
Campos | |
---|---|
coordinates |
Latitud y longitud del dispositivo |
DialogStateIn
Proporciona información sobre el estado del diálogo actual.
Campos | |
---|---|
conversation_state |
Obligatorio: Este campo siempre debe establecerse en el valor |
language_code |
Obligatorio: Es el idioma de la solicitud en la sintaxis IETF BCP 47 (por ejemplo, "en-US"). Consulta Idiomas compatibles para obtener más información. Si seleccionaste un idioma para este |
device_location |
Opcional: Es la ubicación del dispositivo donde se originó la consulta. |
is_new_conversation |
Opcional: Si es verdadero, el servidor considerará la solicitud como una conversación nueva y no usará el estado de la solicitud anterior. Establece este campo en verdadero cuando se deba reiniciar la conversación, por ejemplo, después de reiniciar un dispositivo o después de un tiempo significativo desde la consulta anterior. |
DialogStateOut
El estado del diálogo que resulta de la consulta del usuario. Es posible que se reciban varios de estos mensajes.
Campos | |
---|---|
supplemental_display_text |
Solo salida: Texto de visualización complementario del Asistente. Puede ser igual al discurso que se pronuncia en |
conversation_state |
Información de estado solo de salida para la RPC |
microphone_mode |
Solo salida: Especifica el modo del micrófono después de que se procese esta RPC de |
volume_percentage |
Solo salida: Se actualizó el nivel del volumen. El valor será 0 o se omitirá (lo que indica que no hay cambios), a menos que se reconozca un comando por voz como Sube el volumen o Establecer el volumen en el nivel 4, en cuyo caso el valor será entre 1 y 100 (correspondiente al nuevo nivel de volumen de 1% a 100%). Por lo general, el cliente debe usar este nivel de volumen cuando reproduce los datos de |
MicrophoneMode
Estados posibles del micrófono después de que se completa una RPC Assist
.
Enumeradores | |
---|---|
MICROPHONE_MODE_UNSPECIFIED |
No se especificó ningún modo. |
CLOSE_MICROPHONE |
El servicio no espera una pregunta de seguimiento del usuario. El micrófono debe permanecer apagado hasta que el usuario lo reactive. |
DIALOG_FOLLOW_ON |
El servicio espera una pregunta de seguimiento del usuario. El micrófono se debe volver a abrir cuando se complete la reproducción de AudioOut (iniciando una nueva llamada RPC de Assist para enviar el audio nuevo). |
ScreenOut
Es la salida visual de respuesta a la consulta de Asistente. Habilitada por screen_out_config
.
Campos | |
---|---|
format |
Solo salida: Es el formato de los datos de la pantalla proporcionados. |
data |
Solo salida Son los datos sin procesar de la pantalla que se mostrarán como resultado de una consulta al Asistente. |
Formato
Posibles formatos de los datos de la pantalla.
Enumeradores | |
---|---|
FORMAT_UNSPECIFIED |
No se especificó ningún formato. |
HTML |
Los datos contendrán un diseño HTML5 totalmente codificado en UTF-8, p.ej., <html><body><div>...</div></body></html> . Está diseñado para procesarse junto con la respuesta de audio. Ten en cuenta que el DOCTYPE de HTML5 debe incluirse en los datos HTML reales. |
ScreenOutConfig
Especifica el formato que debe usar el servidor cuando muestre una respuesta screen_out
.
Campos | |
---|---|
screen_mode |
Es el modo de pantalla visual actual para el dispositivo mientras se emite la consulta. |
ScreenMode
Modos posibles de salida de pantalla en el dispositivo.
Enumeradores | |
---|---|
SCREEN_MODE_UNSPECIFIED |
No se especificó ningún modo de video. Es posible que Asistente responda como si estuviera en el modo OFF . |
OFF |
La pantalla está apagada (o tiene el brillo o algún otro parámetro de configuración tan bajo que no se puede ver). Por lo general, en este modo, el Asistente no muestra una respuesta en pantalla. |
PLAYING |
Por lo general, en este modo, el Asistente muestra una respuesta en pantalla parcial. |
SpeechRecognitionResult
La transcripción estimada de una frase que el usuario ha pronunciado. Puede ser un solo segmento o la consulta completa de la consulta por voz del usuario.
Campos | |
---|---|
transcript |
Solo salida: Texto de transcripción que representa las palabras que dijo el usuario. |
stability |
Solo salida: Es una estimación de la probabilidad de que Asistente no cambie su suposición sobre este resultado. Los valores varían de 0.0 (completamente inestable) a 1.0 (completamente estable y final). El valor predeterminado de 0.0 es un valor centinela que indica que no se estableció |