Amazon Nova 2 Sonic: Agent AI giọng nói tự nhiên, độ trễ thấp, chi phí tối ưu

Đối tác Loka của AWS đã thay đổi hoàn toàn tương tác giọng nói với khách hàng bằng cách xây dựng một agent AI đàm thoại với Amazon Nova 2 Sonic, mang lại trải nghiệm tự nhiên và phản hồi nhanh chóng. Giải pháp dựa trên nền tảng AWS này đạt được độ chính xác cao trong suy luận giọng nói, đồng thời giảm đáng kể chi phí và thời gian phản hồi so với các pipeline AI giọng nói truyền thống.

Bài viết này phân tích kiến trúc và phương pháp tiếp cận mà Loka đã sử dụng để giải quyết một vấn đề phổ biến: các trợ lý ảo giọng nói chậm chạp, thiếu tự nhiên khiến khách hàng mất kiên nhẫn, gây tổn hại đến hình ảnh thương hiệu và tăng chi phí hỗ trợ.

Vì sao trợ lý ảo giọng nói truyền thống không hiệu quả?

Các trợ lý ảo giọng nói truyền thống thường hoạt động theo một quy trình ba bước, vốn là gốc rễ của vấn đề. Đầu tiên, chúng chuyển đổi giọng nói thành văn bản bằng hệ thống Speech-to-Text. Tiếp theo, chúng xử lý văn bản đó qua một Mô hình Ngôn ngữ Lớn (LLM). Cuối cùng, chúng chuyển đổi văn bản phản hồi trở lại thành giọng nói bằng công nghệ Text-to-Speech. Pipeline này tạo ra độ trễ cộng dồn ở mỗi bước, dẫn đến khoảng dừng từ 3 đến 5 giây trước khi người dùng nghe được phản hồi.

Sự chậm trễ này phá vỡ cảm giác của một cuộc trò chuyện tự nhiên, khiến việc ngắt lời hoặc sửa lỗi cho trợ lý trở nên khó chịu. Ví dụ, tại một đại lý ô tô, khách hàng gọi đến và nói: “Tôi đang tìm chiếc SUV mà anh quảng cáo, nhưng không phải bản hybrid. Tôi chỉ có thể đến sau 5 giờ chiều.” Trợ lý cần phân tích nhiều thông tin cùng lúc: ý định, phủ định và ràng buộc về thời gian. Các hệ thống truyền thống gặp khó khăn với sự phức tạp này vì chúng làm mất thông tin quan trọng như ngữ điệu, sự do dự và tính khẩn cấp khi chuyển đổi giọng nói thành văn bản.

Ngoài độ trễ kỹ thuật, còn có vấn đề về chi phí. Việc phục vụ hàng nghìn địa điểm đòi hỏi kiểm soát chi phí nghiêm ngặt. Các hệ thống giọng nói thời gian thực truyền thống có thể trở nên quá đắt đỏ khi triển khai ở quy mô lớn. Sự kết hợp giữa trải nghiệm kém và chi phí cao đã hạn chế việc áp dụng AI giọng nói trong doanh nghiệp.

Mô hình Speech-to-Speech: Bước đột phá mới

Những tiến bộ gần đây trong lĩnh vực AI đã mở ra một cách tiếp cận hoàn toàn khác. Giờ đây, các nhà phát triển có thể gửi luồng âm thanh trực tiếp đến các mô hình speech-to-speech (xử lý trực tiếp từ giọng nói sang giọng nói) để xử lý việc hiểu, suy luận và tạo phản hồi như một hệ thống thống nhất. Bằng cách xử lý âm thanh end-to-end, các mô hình này nắm bắt được ngữ điệu, cảm xúc và các tín hiệu tinh tế mà các pipeline chỉ dựa trên văn bản bỏ lỡ.

Để kiểm chứng phương pháp này, Loka đã tiến hành các thử nghiệm nghiêm ngặt trên Big Bench Audio, một bộ tiêu chuẩn đo lường khả năng suy luận trên đầu vào giọng nói. Amazon Nova 2 Sonic đã đạt điểm suy luận giọng nói là 87.0, vượt trội so với Gemini 2.5 Flash Native Audio (Live API) (71.0) và GPT Realtime (83.0). Những điểm số này xác nhận rằng việc xử lý âm thanh gốc không phải hy sinh trí thông minh để đổi lấy tốc độ.

Biểu đồ so sánh điểm suy luận giọng nói trên Big Bench Audio.

Tuy nhiên, khả năng suy luận là chưa đủ. Latency (độ trễ) mới là yếu tố quyết định một cuộc trò chuyện có tự nhiên hay không. Nova 2 Sonic đạt được Time to First Audio (thời gian đến âm thanh đầu tiên) chỉ 1.39 giây. Thời gian phản hồi này cho phép người dùng ngắt lời (barge-in) một cách tự nhiên, giống như trong các cuộc trò chuyện giữa người với người.

Biểu đồ so sánh thời gian đến âm thanh đầu tiên (Time to First Audio).

Hiệu quả chi phí cũng được cải thiện đáng kể. Nova 2 Sonic có chi phí khoảng $0.27 mỗi giờ cho âm thanh đầu vào, thấp hơn so với các mô hình thời gian thực tương đương và các phương pháp truyền thống.

Biểu đồ so sánh chi phí mỗi giờ xử lý âm thanh.

So sánh Amazon Nova Sonic với phiên bản mới Amazon Nova 2 Sonic cho thấy sự tiến bộ rõ rệt trên các phương diện: Mức độ phù hợp của phản hồi (từ 2.5 lên 2.9), Khả năng hiểu ý định (từ 2.9 lên 3.0), Mức độ hoàn thành tác vụ (từ 1.8 lên 2.5) và Tính tự nhiên trong hội thoại (từ 2.5 lên 2.8). Những cải tiến này mang lại kết quả kinh doanh tốt hơn cho các đại lý ô tô.

Xây dựng agent AI đàm thoại chuyên nghiệp

Với một foundation model mạnh mẽ, thách thức tiếp theo là tối ưu hóa. Loka đã tiếp cận prompt engineering (kỹ thuật tạo câu lệnh) như viết mã nguồn, liên tục lặp lại dựa trên hiệu suất đo được. Chỉ sau hai lần tinh chỉnh prompt, điểm đánh giá tổng thể đã tăng từ 2.7 lên 3.8/5.0.

Đội ngũ đã biến các prompt thành các template có thể tái sử dụng, thay thế các chi tiết cố định bằng biến số. Họ cũng sử dụng Amazon Bedrock Prompt Management để quản lý phiên bản và quy trình phê duyệt, kết hợp với AWS Identity and Access Management (AWS IAM) để kiểm soát quyền truy cập. Cách tiếp cận này đã biến việc tinh chỉnh prompt từ một công việc đơn lẻ thành một quy trình có thể lặp lại, kiểm soát và mở rộng.

Để triển khai sản phẩm, Loka đã thiết kế một hệ thống serverless và event-driven (hướng sự kiện) sử dụng các dịch vụ AWS. Kiến trúc này đảm bảo khả năng mở rộng và độ tin cậy cao.

Sơ đồ kiến trúc giải pháp agent AI đàm thoại.

Kiến trúc giải pháp bao gồm:

Lớp vận chuyển: LiveKit để xử lý kết nối WebRTC từ trình duyệt và SIP từ các cuộc gọi điện thoại truyền thống.
Lớp tính toán: AWS Fargate trên Amazon Elastic Container Service (Amazon ECS) để chạy các agent một cách độc lập và co giãn linh hoạt.
Lớp dữ liệu: Amazon RDS cho lưu trữ dữ liệu quan hệ (cấu hình, lịch sử hội thoại) và Amazon ElastiCache cho quản lý session và điều phối tác vụ tạm thời với độ trễ thấp.
Lõi AI: Amazon Bedrock cung cấp quyền truy cập trực tiếp vào mô hình Nova 2 Sonic.
Tích hợp: Các công cụ dựa trên hàm Python cho phép agent tương tác với hệ thống backend của đại lý (ví dụ: tìm kiếm kho hàng, đặt lịch hẹn) thông qua GraphQL.
Quan sát: Langfuse được tự host trên AWS để theo dõi và phân tích mọi quyết định của agent, phục vụ cho việc cải tiến liên tục.

Một tiêu chuẩn mới cho AI đàm thoại

Việc chuyển đổi từ chatbot dựa trên văn bản sang agent giọng nói thời gian thực đòi hỏi một cơ sở hạ tầng và tư duy hoàn toàn khác. Amazon Nova 2 Sonic đã đáp ứng đồng thời ba yêu cầu kỹ thuật quan trọng: khả năng suy luận cao, độ trễ cực thấp và chi phí vận hành hiệu quả ở quy mô lớn.

Đối với các đại lý ô tô, công nghệ này đã và đang tạo ra doanh thu. Khách hàng nhận được phản hồi hữu ích ngay lập tức, các yêu cầu phức tạp được xử lý suôn sẻ và lịch hẹn được đặt chính xác. Tiềm năng của giải pháp này còn mở rộng sang nhiều ngành khác như du lịch, giáo dục và y tế.

Công nghệ AI speech-to-speech đã sẵn sàng để đưa vào ứng dụng thực tế. Các doanh nghiệp có thể bắt đầu thử nghiệm với Nova 2 Sonic trên môi trường AWS của mình để khám phá những khả năng đột phá cho hoạt động kinh doanh.

Post Views: 44