Tờ South China Morining Post đưa tin cho biết, kiến trúc trung tâm dữ liệu tiên tiến của Huawei Technologies có tên CloudMatrix 384 đã giúp loại chip Ascend của công ty này vượt qua hiệu suất của chip H800 của Nvidia khi chạy mô hình trí tuệ nhân tạo R1 của DeepSeek, theo một bài báo kỹ thuật được công bố mới đây.
Các tác giả
của đánh giá kỹ thuật này là các nhà nghiên cứu đến từ Huawei và công ty khởi
nghiệp hạ tầng AI của Trung Quốc – SiliconFlow.
Trong bài
báo, CloudMatrix 384 được mô tả như một “siêu nút AI” chuyên biệt, được xây dựng
nhằm mục đích xử lý các khối lượng công việc AI lớn. Huawei kỳ vọng, kiến trúc
này “sẽ định hình lại nền tảng của hạ tầng AI”.
Theo miêu
tả, CloudMatrix 384 bao gồm 384 đơn vị xử lý nơron (NPU) – một loại bộ vi xử lý
chuyên dụng được thiết kế để thực hiện các tính toán và xử lý dữ liệu liên quan
đến mạng nơron nhân tạo – loại Ascend 910C và 192 bộ xử lý trung tâm máy chủ
Kunpeng. Những phần này được kết nối với nhau thông qua băng thông cực cao và độ
trễ thấp.
Theo Huawei, việc công bố năng lực tính toán của chip giúp xây dựng sự tự
tin trong hệ sinh thái công nghệ nội địa. Ảnh: SCMP
Theo bài
báo, giải pháp phục vụ mô hình ngôn ngữ lớn (LLM) tiên tiến, được đặt tên là
CloudMatrix-Infer, đã tận dụng cấu trúc trên cho thấy khả năng vượt qua hiệu suất
của một số hệ thống nổi bật nhất thế giới khi chạy mô hình suy luận R1 của
DeepSeek.
Bước tiến
mới nhất này phản ánh những nỗ lực kéo dài suốt thời gian qua của Huawei nhằm
vượt qua các biện pháp kiểm soát công nghệ của Washington, trong bối cảnh công
ty này đang thúc đẩy hiệu suất của hệ thống AI.
Trung tâm
dữ liệu là cơ sở vật chất chứa các máy chủ dung lượng lớn và hệ thống lưu trữ dữ
liệu, với nhiều nguồn điện và kết nối internet băng thông cao. Ngày càng có nhiều
doanh nghiệp sử dụng các trung tâm dữ liệu để lưu trữ hoặc quản lý hạ tầng tính
toán cho các dự án AI.
Khả năng tính
toán của mô hình
Trong giai
đoạn đầu liên quan đến việc xử lý các câu lệnh được đặt ra, CloudMatrix-Infer đạt
mức 6.688 tokens mỗi giây trên mỗi NPU cho một câu lệnh dài 4.000 token. Con số
này tương đương với hiệu suất tính toán là 4.45 TFLOPs.
Trong đó,
tokens là các đơn vị cơ bản mà mô hình ngôn ngữ lớn – công nghệ đứng sau các dịch
vụ AI tạo sinh như ChatGPT – sử dụng để xử lý văn bản. Độ dài token ảnh hưởng
trực tiếp đến chi phí, thời gian xử lý và khả năng hiểu cũng như phản hồi các
hướng dẫn hoặc câu chuyện phức tạp của một mô hình AI.
TFLOPS là
thước đo tốc độ xử lý của máy tính, cụ thể là khả năng thực hiện các phép tính
phức tạp trong các tác vụ như huấn luyện hệ thống AI.
Theo Huawei, việc sử dụng các phương pháp phù hợp trong chip mang lại hiệu
suất tính toán tương đương với các hệ thống tiên tiến nhất trên thế giới. Ảnh:
AFP
Trong giai
đoạn giải mã tiếp theo để tạo ra đầu ra từ một mô hình AI, các phát hiện của
bài báo cho thấy, CloudMatrix đã ghi nhận 1.943 tokens mỗi giây trên mỗi NPU
cho một bộ nhớ đệm khóa có giá trị dài 4.000 – một cấu trúc bộ nhớ giúp sử dụng
bộ xử lý AI hiệu quả hơn.
Cùng trong
giai đoạn này, thời gian tạo đầu ra luôn dưới 50 mili giây cho mỗi token.
Các tác giả
trong bài báo đánh giá rằng, các chỉ số trên đã vượt qua hiệu suất của nền tảng
SGLang được Nvidia sử dụng cho các mô hình ngôn ngữ lớn chạy trên GPU H100 hàng
đầu và một hệ thống khác chạy mô hình R1 của DeepSeek bằng cách sử dụng bộ xử
lý H800.
Hy vọng vào
công nghệ nội địa
"Nghiên
cứu này 'trình bày một cách đầy đủ và minh bạch về công nghệ toàn diện của
Huawei CloudMatrix”, ông Zuo Pengfei, tác giả chính của bài báo viết trong một
bài đăng mới đây. “Điều này nhằm mục đích giúp ngành công nghiệp hiểu đầy đủ về
khả năng của các NPU Ascend nội địa".
Vị này cho
biết thêm, kết quả từ bài báo nhằm mục đích “xây dựng sự tự tin trong hệ sinh
thái công nghệ nội địa về việc sử dụng NPU do Trung Quốc phát triển để vượt trội
hơn GPU của Nvidia".
Sự ra đời
của bài báo đánh dấu lần đầu tiên Huawei chính thức cung cấp chi tiết về khả
năng của bộ tăng tốc AI – Ascend 910C, đồng thời, cũng nhấn mạnh thêm những nhận
xét được người sáng lập Huawei – ông Nhậm Chính Phi đưa ra gần đây khi thừa nhận
chip Ascend của công ty vẫn còn "thua một thế hệ" so với các đối thủ
cạnh tranh ở Mỹ.
Tuy nhiên,
ông nhấn mạnh rằng, việc sử dụng các phương pháp như "xếp chồng và phân cụm"
đã mang lại hiệu suất tính toán tương đương với các hệ thống tiên tiến nhất
trên thế giới.
Người sáng
lập và CEO của Nvidia – ông Jensen Huang dường như đã đồng ý với nhận định của
ông Phi. "AI là một bài toán song song, vì vậy nếu mỗi máy tính không đủ
khả năng... chỉ cần thêm nhiều máy tính hơn", ông Huang nói vào tuần trước
trong một cuộc phỏng vấn với đài truyền hình Mỹ CNBC bên lề hội nghị VivaTech ở
Paris.
Ông Huang
nói thêm: "Những gì ông ấy (ông Phi) đang nói là ở Trung Quốc – nơi họ có
nhiều năng lượng và họ sẽ chỉ sử dụng nhiều chip hơn". Vị này khẳng định rằng,
Trung Quốc vẫn là một thị trường quan trọng về mặt chiến lược đối với Mỹ do có
nguồn nhân lực tài năng về AI dồi dào ở nền kinh tế lớn thứ hai thế giới.
Theo TCKTVN