AI của Google có khả năng phân biệt giọng nói nhiều người khác nhau với độ chính xác tới 92%

15/11/2018

Ghi tốc ký bằng giọng nói (diarization) – quá trình phân chia một đoạn đối thoại thành các phân đoạn riêng biệt, đồng nhất dựa theo việc ai đang nói những gì, khi nào – là một việc không hề dễ dàng đối với các cỗ máy, đặc biệt khi so với con người. Huấn luyện một thuật toán máy học để thực hiện điều đó còn khó hơn nữa.

Một hệ thống ghi nhật ký đáng tin cậy phải có thể liên kết những phân đoạn hội thoại với các cá nhân mà nó chưa từng tiếp xúc trước đây. Thế nhưng điều này rất lại rất quan trọng khi các trợ lý ảo ra lệnh bằng giọng nói như Alexa và Google Assistant đang ngày càng phổ biến. Việc phân biệt được người nói sẽ giúp các thiết bị này thực thi các yêu cầu của người dùng chính xác hơn.

AI của Google

Nhưng bộ phận nghiên cứu AI của Google đang đạt được các tiến bộ hứa hẹn cho việc tạo ra một mô hình như vậy. Trong một nghiên cứu mới đây (Fully Supervised Speaker Diarization) và một bài đăng trên blog có liên quan, các nhà nghiên cứu đã mô tả về một hệ thống trí tuệ nhân tạo mới, để làm việc "sử dụng nhãn người nói được giám sát theo cách hiệu quả hơn."

Theo tuyên bố của các nhà nghiên cứu, thuật toán cốt lõi của hệ thống này có thể đạt được tỷ lệ lỗi khi ghi nhật ký hội thoại (DER: diarization error rate) trực tuyến đủ thấp để sử dụng cho việc ứng dụng theo thời gian thực – 7,6% theo hệ thống benchmark NIST SRE 2000 CALLHOME, so với điểm số DER 8,8% trên hệ thống trước đây của Google. Quan trọng hơn, hiện tại thuật toán mới này đang được mã nguồn mở trên GitHub.

Cách tiếp cận mới của các nhà nghiên cứu tại Google là mô hình hóa các thành phần (các Embedding) của người nói (tức là biểu diễn bằng toán học các từ và cụm từ trong đoạn hội thoại của người đó) bằng một mạng lưới thần kinh hồi quy (Recurrent neural network RNN) – một loại mô hình máy học có thể sử dụng trạng thái nội tại của nó để xử lý các chuỗi dữ liệu đầu vào.

ai phân tích giọng nói của Google

Mỗi người nói sẽ bắt đầu với thực thể (instance) RNN riêng, và được cập nhật liên tục trạng thái RNN mỗi khi có các thành phần mới thêm vào, cho phép hệ thống học được kiến thức bậc cao được chia sẻ thông qua người nói và cách nói.

"Do tất cả các thành phần của hệ thống này có thể học theo cách có thể giám sát, nó sẽ được ưa thích hơn so với những hệ thống không được giám sát trong các bối cảnh có dữ liệu huấn luyện với nhãn người nói được gắn mốc thời gian chất lượng cao." Các nhà nghiên cứu cho biết trong tài liệu. "Hệ thống của chúng tôi được giám sát hoàn toàn và có thể học được từ các ví dụ khi nhãn người nói được gắn mốc thời gian được chú thích."

Trong tương lai, nhóm nghiên cứu dự định tinh chỉnh lại mô hình để nó có thể tích hợp thông tin ngữ cảnh để thực hiện việc giải mã offline – khả năng được kỳ vọng sẽ giảm hơn nữa tỷ lệ DER. Họ cũng hy vọng có thể mô hình hóa trực tiếp các thuộc tính âm học, để toàn bộ hệ thống ghi nhật ký người nói có thể được huấn luyện từ đầu tới cuối.

123

123

123

123

123
123