Google cũng đã làm việc nhiều năm để khai thác toàn bộ tiềm năng của AI. Một nghiên cứu mới nhất của Google được công bố gần đây là AudioPaLM - một mô hình ngôn ngữ AI có thể nghe, nói và dịch với độ chính xác cao.
Các nhà nghiên cứu của Google mới đây đã giới thiệu AudioPaLM, một mô hình ngôn ngữ AI có thể nghe, nói và dịch với độ chính xác cao. Đây là một kiến trúc đa phương thức kết hợp sức mạnh của PaLM-2 và AudioLM.
PaLM-2 là mô hình rất hiệu quả trong việc đọc hiểu văn bản trong khi AudioLM lại xuất sắc trong việc nhận dạng ngôn ngữ và âm điệu của người nói.
Bằng cách kết hợp hai mô hình ngôn ngữ này, Google đã cho ra đời AudioPaLM, giúp AI có thể hiểu và tạo ra văn bản hay lời nói với chất lượng cao.
AudioPaLM sử dụng một từ vựng chung (một số lượng hạn chế các mã thông báo riêng biệt) để có thể hiển thị lời nói và văn bản. Điều này cho phép các tác vụ như nhận dạng giọng nói, tổng hợp văn bản thành giọng nói và dịch lời nói được hợp nhất.
AudioPaLM đã được chứng minh là hoạt động tốt hơn các nền tảng dịch giọng nói hiện tại, thậm chí có thể thực hiện dịch giọng nói thành văn bản với ngôn ngữ mà mô hình này chưa từng thực hiện. AudioPaLM còn có thể thu và tái tạo các giọng nói riêng biệt của từng ngôn ngữ khác nhau.