Deepseek、智谱、MiniMax tập thể thông báo ra mắt mới

robot
Đang tạo bản tóm tắt

Tin tức quan trọng về các mô hình AI lớn của Trung Quốc liên tục được cập nhật.

Vào tối ngày 11 tháng 2, chính thức xác nhận từ Zhipu rằng mô hình bí ẩn “Pony Alpha”, từng đứng đầu bảng xếp hạng trên nền tảng dịch vụ mô hình toàn cầu OpenRouter, chính là mô hình mới của Zhipu là GLM-5. Hiện tại, mô hình mới đã được đưa lên nền tảng chat.z.ai.

Vào ngày 6 tháng 2, nền tảng dịch vụ mô hình toàn cầu OpenRouter đã âm thầm ra mắt một mô hình mã số “Pony Alpha” với danh tính ẩn danh, nhờ khả năng mã hóa mạnh mẽ, cửa sổ ngữ cảnh siêu dài và tối ưu sâu cho quy trình làm việc của trí tuệ nhân tạo, đã nhanh chóng thu hút sự chú ý của cộng đồng nhà phát triển, và nhiệt độ trong cộng đồng quốc tế đã tăng nhanh.

Chính thức từ OpenRouter mô tả Pony Alpha là “mô hình nền tảng tiên tiến”, thể hiện mạnh mẽ trong lập trình, quy trình làm việc của trí tuệ nhân tạo, suy luận và đóng vai trò, đặc biệt nhấn mạnh “độ chính xác cao trong gọi công cụ”. Tính năng này giúp nó nổi bật trong các ứng dụng AI Agent, nhà phát triển có thể sử dụng các công cụ như Claude Code để gọi mô hình này, thực hiện các dự án phức tạp kéo dài hàng giờ.

Vào ngày 8 tháng 1, Zhipu chính thức niêm yết trên Sở Giao dịch Chứng khoán Hồng Kông, trong ngày niêm yết, Giám đốc Khoa học của công ty, Giáo sư Đường Kiệt từ Đại học Thanh Hoa, đã gửi thư nội bộ xác nhận rằng mô hình nền tảng thế hệ mới GLM-5 “sắp ra mắt”, đồng thời tuyên bố từ năm 2026 sẽ “toàn diện trở lại nghiên cứu mô hình nền tảng”, và thành lập bộ phận sáng tạo tiên phong X-Lab, tập trung vào kiến trúc, phương pháp học và tiến hóa liên tục.

Ngoài ra, DeepSeek cũng đã cập nhật mô hình. Theo báo cáo, nhiều người dùng phản hồi rằng DeepSeek đã cập nhật phiên bản trên web và ứng dụng, hỗ trợ tối đa 1 triệu token cho độ dài ngữ cảnh. Trong khi đó, phiên bản DeepSeekV3.1 phát hành vào tháng 8 năm ngoái đã mở rộng độ dài ngữ cảnh lên đến 128K.

Hiện tại, số ít mô hình có thể mở rộng ngữ cảnh lên đến hàng triệu, như dòng Gemini của Google và Claude Opus 4.6 của Anthropic đã đi đầu trong việc thực hiện.

Dòng mô hình V của DeepSeek hướng tới hiệu suất tổng thể tối ưu. Mô hình nền tảng V3 ra mắt vào tháng 12 năm 2024 là cột mốc quan trọng của DeepSeek, với kiến trúc MoE hiệu quả đã xác lập nền tảng hiệu suất mạnh mẽ. Sau đó, DeepSeek đã nhanh chóng cập nhật dựa trên V3, phát hành V3.1 với khả năng suy luận nâng cao và Agent, và đến tháng 12 năm 2025 đã ra mắt phiên bản chính thức mới nhất V3.2. Đồng thời, còn có phiên bản đặc biệt V3.2-Speciale tập trung giải quyết các vấn đề toán học và học thuật khó khăn.

Trang công nghệ The Information trước đó tiết lộ rằng DeepSeek sẽ ra mắt mô hình AI cao cấp thế hệ mới DeepSeek V4 trong khoảng giữa tháng 2 âm lịch năm nay, với khả năng lập trình mạnh mẽ hơn.

Đầu năm nay, nhóm DeepSeek đã công bố hai bài báo, tiết lộ hai kiến trúc sáng tạo: mHC (siêu liên kết hạn chế hình dạng) nhằm tối ưu luồng thông tin của Transformer sâu, giúp huấn luyện mô hình ổn định hơn, dễ mở rộng hơn mà không tăng gánh nặng tính toán; Engram (mô-đun ghi nhớ điều kiện) tách rời kiến thức tĩnh và tính toán động, sử dụng bộ nhớ DRAM rẻ tiền để lưu trữ kiến thức thực thể, giảm đáng kể chi phí suy luận ngữ cảnh dài bằng cách tập trung vào suy luận trên HBM đắt tiền.

Cùng ngày, MiniMax cũng có tin tức, mô hình M2.5 sắp chính thức ra mắt, hiện tại mô hình MiniMax M2.5 đã thử nghiệm nội bộ trên sản phẩm MiniMax Agent ở nước ngoài.

(Nguồn: Daily Economic News)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim