Puedes usar ML Kit para identificar el idioma de una cadena de texto. Puedes obtener el idioma más probable de la cadena, así como las puntuaciones de confianza para todas las posibles idiomas de la cadena.
ML Kit reconoce texto en más de 100 idiomas diferentes en sus alfabetos nativos. Además, el texto latinizado puede reconocerse en árabe, búlgaro, chino, griego, hindi, japonés y ruso. Consulta la lista completa de lenguajes y secuencias de comandos compatibles.
Red de Búsqueda y Red de Display | Sin agrupar | |
---|---|---|
Nombre de la biblioteca | com.google.mlkit:language-id | com.google.android.gms:play-services-mlkit-language-id |
Implementación | El modelo se vincula de forma estática a tu app durante el tiempo de compilación. | El modelo se descarga de forma dinámica a través de los Servicios de Google Play. |
Impacto del tamaño de la app | Aumento de tamaño aproximado de 900 KB. | Aumento de tamaño aproximado de 200 KB. |
Tiempo de inicialización | El modelo está disponible de inmediato. | Es posible que debas esperar a que el modelo se descargue antes de usarlo por primera vez. |
Probar
- Prueba la app de ejemplo para ver un ejemplo de uso de esta API.
Antes de comenzar
En tu archivo
build.gradle
de nivel de proyecto, asegúrate de incluir el ID de Google Repositorio de Maven en las seccionesbuildscript
yallprojects
.Agrega las dependencias para las bibliotecas de Android del ML Kit al archivo archivo de Gradle a nivel de la app, que suele ser
app/build.gradle
. Elige una de las siguientes opciones: las siguientes dependencias según tus necesidades:Para empaquetar el modelo con tu app, haz lo siguiente:
dependencies { // ... // Use this dependency to bundle the model with your app implementation 'com.google.mlkit:language-id:17.0.6' }
Para usar el modelo en los Servicios de Google Play:
dependencies { // ... // Use this dependency to use the dynamically downloaded model in Google Play Services implementation 'com.google.android.gms:play-services-mlkit-language-id:17.0.0' }
Si eliges usar el modelo en los Servicios de Google Play, puedes configurar tu app para descargar automáticamente el modelo en el dispositivo después de que la app instalada desde Play Store. Para ello, agrega la siguiente declaración al el archivo
AndroidManifest.xml
de tu app:<application ...> ... <meta-data android:name="com.google.mlkit.vision.DEPENDENCIES" android:value="langid" > <!-- To use multiple models: android:value="langid,model2,model3" --> </application>
También puedes verificar explícitamente la disponibilidad del modelo y solicitar su descarga a través de API de ModuleInstallClient de los Servicios de Google Play
Si no habilitas las descargas de modelos en el momento de la instalación ni solicitas una descarga explícita, el modelo se descarga la primera vez que ejecutas el identificador. Solicitudes que realizas antes de que se complete la descarga no producirá resultados.
Identifica el idioma de una cadena
Para identificar el idioma de una cadena, llama a LanguageIdentification.getClient()
para
obtén una instancia de LanguageIdentifier
y, luego, pasa la cadena al
método identifyLanguage()
de LanguageIdentifier
.
Por ejemplo:
Kotlin
val languageIdentifier = LanguageIdentification.getClient() languageIdentifier.identifyLanguage(text) .addOnSuccessListener { languageCode -> if (languageCode == "und") { Log.i(TAG, "Can't identify language.") } else { Log.i(TAG, "Language: $languageCode") } } .addOnFailureListener { // Model couldn’t be loaded or other internal error. // ... }
Java
LanguageIdentifier languageIdentifier = LanguageIdentification.getClient(); languageIdentifier.identifyLanguage(text) .addOnSuccessListener( new OnSuccessListener<String>() { @Override public void onSuccess(@Nullable String languageCode) { if (languageCode.equals("und")) { Log.i(TAG, "Can't identify language."); } else { Log.i(TAG, "Language: " + languageCode); } } }) .addOnFailureListener( new OnFailureListener() { @Override public void onFailure(@NonNull Exception e) { // Model couldn’t be loaded or other internal error. // ... } });
Si la llamada se realiza correctamente, se
El código de idioma BCP-47 es
se pasa al objeto de escucha que detecta el resultado correcto, lo que indica el idioma del texto. Si la respuesta es no
idioma se detecta con confianza, el código
Se pasa und
(indeterminado).
Según la configuración predeterminada, el Kit de AA muestra un valor distinto de und
solo cuando se identifica
el idioma con un valor de confianza de al menos 0.5. Puedes cambiar esto
umbral pasando un objeto LanguageIdentificationOptions
a getClient()
:
Kotlin
val languageIdentifier = LanguageIdentification .getClient(LanguageIdentificationOptions.Builder() .setConfidenceThreshold(0.34f) .build())
Java
LanguageIdentifier languageIdentifier = LanguageIdentification.getClient( new LanguageIdentificationOptions.Builder() .setConfidenceThreshold(0.34f) .build());
Obtén los posibles idiomas de una cadena
Para conocer los valores de confianza de los idiomas más probables de una cadena, obtén un
instancia de LanguageIdentifier
y, luego, pasa la cadena al
identifyPossibleLanguages()
.
Por ejemplo:
Kotlin
val languageIdentifier = LanguageIdentification.getClient() languageIdentifier.identifyPossibleLanguages(text) .addOnSuccessListener { identifiedLanguages -> for (identifiedLanguage in identifiedLanguages) { val language = identifiedLanguage.languageTag val confidence = identifiedLanguage.confidence Log.i(TAG, "$language $confidence") } } .addOnFailureListener { // Model couldn’t be loaded or other internal error. // ... }
Java
LanguageIdentifier languageIdentifier = LanguageIdentification.getClient(); languageIdentifier.identifyPossibleLanguages(text) .addOnSuccessListener(new OnSuccessListener<List<IdentifiedLanguage>>() { @Override public void onSuccess(List<IdentifiedLanguage> identifiedLanguages) { for (IdentifiedLanguage identifiedLanguage : identifiedLanguages) { String language = identifiedLanguage.getLanguageTag(); float confidence = identifiedLanguage.getConfidence(); Log.i(TAG, language + " (" + confidence + ")"); } } }) .addOnFailureListener( new OnFailureListener() { @Override public void onFailure(@NonNull Exception e) { // Model couldn’t be loaded or other internal error. // ... } });
Si la llamada se ejecuta correctamente, se pasa una lista de objetos IdentifiedLanguage
al
receptor de éxito. De cada objeto, puedes obtener el código BCP-47 del idioma y
la confianza de que la cadena está en ese idioma. Ten en cuenta que
estos valores indican la confianza de que toda la cadena se encuentra en la
idioma; El Kit de AA no identifica varios idiomas en una sola cadena.
Según la configuración predeterminada, el ML Kit solo muestra los idiomas con valores de confianza de al menos
0,01 Para cambiar este umbral, pasa un
LanguageIdentificationOptions
objeto en
getClient()
Kotlin
val languageIdentifier = LanguageIdentification .getClient(LanguageIdentificationOptions.Builder() .setConfidenceThreshold(0.5f) .build())
Java
LanguageIdentifier languageIdentifier = LanguageIdentification.getClient( new LanguageIdentificationOptions.Builder() .setConfidenceThreshold(0.5f) .build());
Si ningún idioma alcanza este umbral, la lista tiene un elemento con el valor
und