Bạn có thể sử dụng Bộ công cụ học máy để xác định ngôn ngữ của một chuỗi văn bản. Bạn có thể nhận được ngôn ngữ có nhiều khả năng nhất của chuỗi cũng như điểm tự tin cho tất cả ngôn ngữ có thể có của chuỗi.
Bộ công cụ học máy nhận dạng văn bản bằng hơn 100 ngôn ngữ khác nhau theo chữ viết gốc của ngôn ngữ đó. Ngoài ra, văn bản được viết theo chữ cái La Mã có thể được nhận dạng cho tiếng Ả Rập, tiếng Bulgaria, tiếng Trung, tiếng Hy Lạp, tiếng Hindi, tiếng Nhật và tiếng Nga. Xem danh sách đầy đủ các ngôn ngữ và tập lệnh được hỗ trợ.
Theo cụm | Không đi kèm | |
---|---|---|
Tên thư viện | com.google.mlkit:language-id | com.google.android.gms:play-services-mlkit-language-id |
Triển khai | Mô hình được liên kết tĩnh với ứng dụng của bạn tại thời điểm tạo bản dựng. | Mô hình được tải xuống động qua Dịch vụ Google Play. |
Tác động của kích thước ứng dụng | Tăng kích thước khoảng 900 KB. | Tăng kích thước khoảng 200 KB. |
Thời gian khởi chạy | Mẫu có sẵn ngay. | Có thể phải đợi mô hình tải xuống trước khi sử dụng lần đầu. |
Dùng thử
- Hãy thử nghiệm với ứng dụng mẫu để xem ví dụ về cách sử dụng API này.
Trước khi bắt đầu
Trong tệp
build.gradle
cấp dự án, hãy nhớ thêm kho lưu trữ Maven của Google vào cả mụcbuildscript
vàallprojects
.Thêm các phần phụ thuộc cho thư viện Android của Bộ công cụ học máy vào tệp gradle cấp ứng dụng của mô-đun, thường là
app/build.gradle
. Chọn một trong các phần phụ thuộc sau đây dựa trên nhu cầu của bạn:Để gói mô hình với ứng dụng:
dependencies { // ... // Use this dependency to bundle the model with your app implementation 'com.google.mlkit:language-id:17.0.6' }
Để sử dụng mô hình trong Dịch vụ Google Play:
dependencies { // ... // Use this dependency to use the dynamically downloaded model in Google Play Services implementation 'com.google.android.gms:play-services-mlkit-language-id:17.0.0' }
Nếu chọn sử dụng mô hình trong Dịch vụ Google Play, bạn có thể định cấu hình ứng dụng để tự động tải mô hình xuống thiết bị sau khi cài đặt ứng dụng từ Cửa hàng Play. Để thực hiện việc này, hãy thêm nội dung khai báo sau vào tệp
AndroidManifest.xml
của ứng dụng:<application ...> ... <meta-data android:name="com.google.mlkit.vision.DEPENDENCIES" android:value="langid" > <!-- To use multiple models: android:value="langid,model2,model3" --> </application>
Bạn cũng có thể kiểm tra rõ ràng tình trạng cung cấp mô hình và yêu cầu tải xuống thông qua ModuleInstallClient API của Dịch vụ Google Play.
Nếu bạn không bật tính năng tải mô hình xuống tại thời điểm cài đặt hoặc yêu cầu tải xuống rõ ràng, thì mô hình sẽ được tải xuống trong lần đầu tiên bạn chạy giá trị nhận dạng. Các yêu cầu bạn đưa ra trước khi quá trình tải xuống hoàn tất sẽ không có kết quả.
Xác định ngôn ngữ của một chuỗi
Để xác định ngôn ngữ của một chuỗi, hãy gọi LanguageIdentification.getClient()
để lấy một thực thể của LanguageIdentifier
, sau đó truyền chuỗi đó đến phương thức identifyLanguage()
của LanguageIdentifier
.
Ví dụ:
Kotlin
val languageIdentifier = LanguageIdentification.getClient() languageIdentifier.identifyLanguage(text) .addOnSuccessListener { languageCode -> if (languageCode == "und") { Log.i(TAG, "Can't identify language.") } else { Log.i(TAG, "Language: $languageCode") } } .addOnFailureListener { // Model couldn’t be loaded or other internal error. // ... }
Java
LanguageIdentifier languageIdentifier = LanguageIdentification.getClient(); languageIdentifier.identifyLanguage(text) .addOnSuccessListener( new OnSuccessListener<String>() { @Override public void onSuccess(@Nullable String languageCode) { if (languageCode.equals("und")) { Log.i(TAG, "Can't identify language."); } else { Log.i(TAG, "Language: " + languageCode); } } }) .addOnFailureListener( new OnFailureListener() { @Override public void onFailure(@NonNull Exception e) { // Model couldn’t be loaded or other internal error. // ... } });
Nếu lệnh gọi thành công, mã ngôn ngữ BCP-47 sẽ được chuyển đến trình nghe thành công, cho biết ngôn ngữ của văn bản. Nếu không phát hiện được ngôn ngữ nào một cách chắc chắn, mã und
(chưa xác định) sẽ được truyền.
Theo mặc định, Bộ công cụ học máy chỉ trả về một giá trị khác với und
khi xác định được ngôn ngữ có giá trị độ tin cậy ít nhất là 0,5. Bạn có thể thay đổi ngưỡng này bằng cách truyền đối tượng LanguageIdentificationOptions
vào getClient()
:
Kotlin
val languageIdentifier = LanguageIdentification .getClient(LanguageIdentificationOptions.Builder() .setConfidenceThreshold(0.34f) .build())
Java
LanguageIdentifier languageIdentifier = LanguageIdentification.getClient( new LanguageIdentificationOptions.Builder() .setConfidenceThreshold(0.34f) .build());
Lấy các ngôn ngữ có thể có của một chuỗi
Để nhận giá trị độ tin cậy của các ngôn ngữ có nhiều khả năng nhất của một chuỗi, hãy lấy một thực thể của LanguageIdentifier
, sau đó truyền chuỗi đó vào phương thức identifyPossibleLanguages()
.
Ví dụ:
Kotlin
val languageIdentifier = LanguageIdentification.getClient() languageIdentifier.identifyPossibleLanguages(text) .addOnSuccessListener { identifiedLanguages -> for (identifiedLanguage in identifiedLanguages) { val language = identifiedLanguage.languageTag val confidence = identifiedLanguage.confidence Log.i(TAG, "$language $confidence") } } .addOnFailureListener { // Model couldn’t be loaded or other internal error. // ... }
Java
LanguageIdentifier languageIdentifier = LanguageIdentification.getClient(); languageIdentifier.identifyPossibleLanguages(text) .addOnSuccessListener(new OnSuccessListener<List<IdentifiedLanguage>>() { @Override public void onSuccess(List<IdentifiedLanguage> identifiedLanguages) { for (IdentifiedLanguage identifiedLanguage : identifiedLanguages) { String language = identifiedLanguage.getLanguageTag(); float confidence = identifiedLanguage.getConfidence(); Log.i(TAG, language + " (" + confidence + ")"); } } }) .addOnFailureListener( new OnFailureListener() { @Override public void onFailure(@NonNull Exception e) { // Model couldn’t be loaded or other internal error. // ... } });
Nếu lệnh gọi thành công, danh sách các đối tượng IdentifiedLanguage
sẽ được truyền đến trình nghe thành công. Từ mỗi đối tượng, bạn có thể lấy mã BCP-47 của ngôn ngữ và độ tin cậy rằng chuỗi đó bằng ngôn ngữ đó. Xin lưu ý rằng các giá trị này cho biết mức độ tin cậy rằng toàn bộ chuỗi đều bằng ngôn ngữ đã cho; Bộ công cụ học máy không xác định nhiều ngôn ngữ trong một chuỗi.
Theo mặc định, Bộ công cụ học máy chỉ trả về các ngôn ngữ có giá trị độ tin cậy tối thiểu là 0,01. Bạn có thể thay đổi ngưỡng này bằng cách truyền đối tượng LanguageIdentificationOptions
đến getClient()
:
Kotlin
val languageIdentifier = LanguageIdentification .getClient(LanguageIdentificationOptions.Builder() .setConfidenceThreshold(0.5f) .build())
Java
LanguageIdentifier languageIdentifier = LanguageIdentification.getClient( new LanguageIdentificationOptions.Builder() .setConfidenceThreshold(0.5f) .build());
Nếu không có ngôn ngữ nào đáp ứng ngưỡng này, danh sách sẽ có một mục với giá trị là und
.