👋 Hi! Bạn cần tư vấn gì về dịch vụ AWS?

Vào ngày 3/6/2026, AWS đã công bố hỗ trợ mô hình NEXUS của Fundamental trên Amazon SageMaker AI. Với lần ra mắt này, doanh nghiệp có thể triển khai một mô hình nền tảng (foundation model – FM) được xây dựng chuyên biệt cho việc dự báo trên dữ liệu dạng bảng. Mô hình này giúp tạo ra các dự báo chính xác và có tính tất định từ dữ liệu có cấu trúc chỉ trong vài ngày thay vì vài tháng.

Bài viết này sẽ hướng dẫn cách bắt đầu với NEXUS trên Amazon SageMaker JumpStart, quy trình triển khai và cách chạy dự báo trên các bộ dữ liệu của doanh nghiệp.

NEXUS là gì?

NEXUS là một mô hình nền tảng do Fundamental phát triển, được xây dựng cho tác vụ dự báo trên dữ liệu dạng bảng. Trong khi các mô hình ngôn ngữ lớn (LLM) được thiết kế cho văn bản và các phương pháp machine learning (ML) truyền thống đòi hỏi nhiều công sức về feature engineering (kỹ thuật đặc trưng) và huấn luyện mô hình, NEXUS lại có một cách tiếp cận khác. Mô hình này đã được huấn luyện trước trên hàng tỷ tác vụ dự báo từ thế giới thực trên các bộ dữ liệu có cấu trúc, do đó nó có sẵn khả năng tìm kiếm tín hiệu trong dữ liệu của bạn.

Là một Mô hình Bảng Lớn (Large Tabular Model), NEXUS được xây dựng cho phân tích dữ liệu có cấu trúc và cung cấp các cải tiến chính sau:

  • Kiến trúc tất định (Deterministic): Các LLM xác suất có thể đưa ra các câu trả lời khác nhau cho cùng một truy vấn. NEXUS tạo ra kết quả nhất quán, có thể tái tạo cho mỗi dự báo riêng lẻ.
  • Hiểu dữ liệu bảng gốc: Được huấn luyện trên hàng tỷ bảng, NEXUS xử lý tự nhiên các con số, danh mục, ngày tháng và văn bản phi cấu trúc mà không cần feature engineering thủ công.
  • Lý luận phi tuần tự: Hầu hết các mô hình AI dự đoán dữ liệu tuần tự (ví dụ: từ tiếp theo hoặc pixel tiếp theo). NEXUS phân tích các mối quan hệ đa chiều trong các bảng dữ liệu doanh nghiệp. Ví dụ, khi dự đoán tỷ lệ khách hàng rời bỏ, NEXUS hiểu cách nhiều yếu tố (tần suất giao dịch, phiếu hỗ trợ, chỉ số kinh tế) tác động đến khả năng này.

Tại sao các phương pháp hiện tại chưa hiệu quả?

Dữ liệu giá trị nhất của doanh nghiệp nằm trong các bảng như bảng tính, hệ thống hoạch định nguồn lực doanh nghiệp (ERP), hệ thống quản lý quan hệ khách hàng (CRM) và cơ sở dữ liệu quan hệ. Nhiều quyết định kinh doanh quan trọng phụ thuộc vào các dự báo từ dữ liệu này. Tuy nhiên, các công cụ hiện nay có những hạn chế đáng kể:

  • ML truyền thống: Cần đội ngũ khoa học dữ liệu từ 3-6 tháng để xây dựng, huấn luyện và triển khai một mô hình cho một trường hợp sử dụng duy nhất. Doanh nghiệp phải liên tục đánh đổi giữa chất lượng và số lượng dự báo.
  • LLMs: Không mang tính tất định, tạo ra các câu trả lời khác nhau trên cùng một bộ dữ liệu. Chúng làm mất ngữ cảnh số trong quá trình tokenization, dẫn đến kết quả không chính xác trên dữ liệu có cấu trúc và đòi hỏi các cơ chế bảo vệ phức tạp để giảm thiểu vấn đề này.

NEXUS được thiết kế cho dữ liệu dạng bảng và cung cấp các lợi thế như:

  • Permutation invariance (Bất biến hoán vị): Nhận biết rằng việc thay đổi thứ tự cột không làm thay đổi ý nghĩa, khác với cách các mô hình transformer xử lý dữ liệu.
  • Khả năng xử lý hàng tỷ dòng: Xử lý các bộ dữ liệu khổng lồ mà không cần cắt bớt hay lấy mẫu.
  • Lý luận chéo schema: Tự động kết nối dữ liệu liên quan giữa các bảng khác nhau.
  • Tự động làm sạch dữ liệu: Giải quyết các mục nhập không đầy đủ (ví dụ: NEXUS vẫn có thể đưa ra dự báo ngay cả khi thiếu dữ liệu).

NEXUS hoạt động trên Amazon SageMaker AI như thế nào?

Sơ đồ sau minh họa luồng end-to-end để triển khai và chạy dự báo với NEXUS trên SageMaker AI.

Sơ đồ luồng hoạt động của NEXUS trên Amazon SageMaker AI

NEXUS chạy trên một instance GPU chuyên dụng, đơn người dùng (single-tenant), được cách ly mạng trong môi trường được quản lý của SageMaker AI. Quy trình làm việc bao gồm các bước sau:

  1. Đăng ký và triển khai: Đăng ký gói mô hình NEXUS trên AWS Marketplace, sau đó triển khai nó dưới dạng một endpoint inference được quản lý bởi SageMaker AI trên instance ml.p5en.48xlarge (8 GPU NVIDIA H200).
  2. Cài đặt SDK: Cài đặt Fundamental Python SDK và kết nối nó với endpoint SageMaker của bạn. SDK cung cấp một API tương thích với scikit-learn quen thuộc với các estimator NEXUSClassifierNEXUSRegressor.
  3. Tải dữ liệu lên Amazon S3: SDK tuần tự hóa dữ liệu dạng bảng của bạn và tải nó lên một bucket Amazon Simple Storage Service (Amazon S3) trong tài khoản của bạn.
  4. Huấn luyện mô hình: Gọi clf.fit(X_train, y_train) để huấn luyện. NEXUS tự động xử lý việc làm sạch dữ liệu và feature engineering, không cần pipeline thủ công.
  5. Tạo dự báo: Gọi clf.predict(X_test) để có dự báo tất định hoặc clf.predict_proba(X_test) để có ước tính xác suất. Kết quả được lưu trữ trở lại bucket Amazon S3 của bạn.

Dữ liệu của bạn luôn nằm trong môi trường AWS của bạn trong suốt quá trình này. Endpoint được cách ly mạng và là single-tenant, giúp NEXUS phù hợp cho các workload doanh nghiệp có dữ liệu nhạy cảm.

Bắt đầu với NEXUS trên Amazon SageMaker AI

Để bắt đầu, hãy truy cập Amazon SageMaker JumpStart, tìm kiếm “Fundamental NEXUS” và chọn từ các tùy chọn sau:

  • Mô hình cơ sở (được huấn luyện trước trên hơn 10 tỷ dòng dữ liệu bảng).
  • Các biến thể dành riêng cho ngành (tài chính, y tế và sản xuất).

Các ứng dụng doanh nghiệp chuyển đổi ngành

Dữ liệu dạng bảng là xương sống của việc ra quyết định trong doanh nghiệp, từ sổ sách tài chính, hồ sơ bệnh nhân đến nhật ký chuỗi cung ứng. NEXUS được xây dựng chuyên biệt cho loại dữ liệu này và giúp bạn đi từ dữ liệu thô có cấu trúc đến các dự báo cấp sản xuất mà không cần feature engineering hay huấn luyện mô hình phức tạp.

Dịch vụ tài chính

  • Phát hiện gian lận: Phân tích các mẫu giao dịch trên hàng triệu tài khoản.
  • Mô hình hóa rủi ro tín dụng: Xử lý danh mục cho vay với khả năng trích xuất đặc trưng tự động.
  • Tuân thủ quy định: Trích xuất dữ liệu có cấu trúc từ các hồ sơ pháp lý phi cấu trúc.

Y tế

  • Đối sánh thử nghiệm lâm sàng: Xác định các bệnh nhân đủ điều kiện trên các hệ thống hồ sơ sức khỏe điện tử (EHR).
  • Khám phá thuốc: Phân tích dữ liệu xét nghiệm sinh học để sàng lọc hợp chất.
  • Phân tầng rủi ro bệnh nhân: Dự đoán rủi ro tái nhập viện bằng cách sử dụng dữ liệu chuỗi thời gian từ đơn vị chăm sóc đặc biệt (ICU).

Sản xuất và chuỗi cung ứng

  • Bảo trì dự đoán: Dự báo hỏng hóc thiết bị từ dữ liệu cảm biến.
  • Dự báo nhu cầu: Dự đoán nhu cầu tồn kho trên các mạng lưới phân phối toàn cầu.
  • Phân tích rủi ro nhà cung cấp: Đánh giá độ tin cậy của nhà cung cấp bằng lịch sử mua hàng.

Bán lẻ và thương mại điện tử

  • Dự đoán tỷ lệ rời bỏ: Xác định các khách hàng có nguy cơ rời đi bằng cách sử dụng lịch sử mua hàng và hành vi duyệt web.
  • Định giá động: Tối ưu hóa giá dựa trên dữ liệu đối thủ cạnh tranh và mức tồn kho.
  • Phân tích bỏ giỏ hàng: Giúp hiểu tại sao khách hàng để lại các mặt hàng trong giỏ hàng trực tuyến.

Tại sao chọn NEXUS trên Amazon SageMaker AI

Triển khai một mô hình chỉ là một nửa câu chuyện. Cơ sở hạ tầng bạn chạy nó quyết định tốc độ bạn có thể chuyển từ thử nghiệm sang sản xuất. SageMaker AI cung cấp một môi trường được quản lý, an toàn và có khả năng mở rộng để chạy NEXUS ở quy mô doanh nghiệp. Cùng với nhau, NEXUS và AWS giảm bớt gánh nặng công việc không tạo ra khác biệt, để các nhà khoa học dữ liệu có thể tập trung vào kết quả kinh doanh thay vì quản lý cơ sở hạ tầng.

  • Tăng tốc thời gian tạo ra giá trị: Các container và script dựng sẵn giúp giảm thời gian triển khai.
  • Hiệu quả chi phí: Cơ sở hạ tầng được quản lý của SageMaker AI giúp giảm chi phí vận hành.
  • Khả năng mở rộng: Tự động mở rộng quy mô đến các bộ dữ liệu cấp petabyte.
  • Sẵn sàng tuân thủ: Mặc định đáp ứng các yêu cầu GDPR, HIPAA và SOC 2.
  • Học hỏi liên tục: Tích hợp sẵn với Amazon SageMaker Pipelines để huấn luyện lại mô hình.
  • Hỗ trợ multiplex: Hỗ trợ nhiều hoạt động fitpredict trên một endpoint SageMaker AI duy nhất, loại bỏ nhu cầu về tài nguyên chuyên dụng cho mỗi trường hợp sử dụng.

Fundamental đã thiết lập quan hệ đối tác chiến lược với AWS để đẩy nhanh việc áp dụng trong doanh nghiệp, bao gồm tích hợp gốc trên AWS Marketplace, cơ sở hạ tầng an toàn và hỗ trợ chuyên dụng từ các Kiến trúc sư Giải pháp của AWS.