Важливі новини про великі моделі штучного інтелекту в Китаї поступово з’являються.
11 лютого ввечері офіційний представник Zhipu підтвердив, що таємнича модель «Pony Alpha», яка раніше очолювала рейтинг популярності на глобальній платформі сервісів моделей OpenRouter, є новою моделлю Zhipu — GLM-5. Наразі нова модель вже доступна на платформі chat.z.ai.
6 лютого глобальна платформа сервісів моделей OpenRouter тихо запустила анонімну модель з кодовою назвою «Pony Alpha». Завдяки високій здатності кодування, наддовгому контекстному вікну та глибокій оптимізації для робочих процесів агентів, вона швидко привернула увагу спільноти розробників і здобула популярність за кордоном.
Офіційний сайт OpenRouter описує Pony Alpha як «передову базову модель», яка демонструє сильні результати у програмуванні, робочих процесах агентів, дедукції та рольовій грі, особливо підкреслюючи її «надзвичайно високу точність викликів інструментів». Ця характеристика дає їй значну перевагу у застосуваннях AI Agent, дозволяючи розробникам через інструменти на кшталт Claude Code викликати цю модель для розробки складних проектів тривалістю до кількох годин.
8 січня Zhipu офіційно розпочала торгівлю на Гонконгській біржі. У день виходу компанія надіслала внутрішнього листа всім співробітникам, у якому головний науковець компанії, професор кафедри інформатики Тяньцзиньського університету Тан Цзе, підтвердив, що нове покоління базової моделі GLM-5 «незабаром буде випущено», і оголосив про «повернення до досліджень базових моделей з 2026 року», а також створення передового інноваційного відділу X-Lab, який зосередиться на архітектурі, навчальних парадигмах і безперервній еволюції.
Крім того, DeepSeek оновила свої моделі. За повідомленнями, кілька користувачів повідомили, що DeepSeek оновила версії на веб-інтерфейсі та в додатку, підтримуючи максимальну довжину контексту до 1 мільйона токенів. У версії DeepSeekV3.1, випущеній у серпні минулого року, довжина контексту була розширена до 128 тисяч.
Зараз моделей, здатних обробляти контекст до мільйона токенів, небагато. Першими це реалізували серії Gemini від Google і Claude Opus 4.6 від Anthropic.
Модель серії DeepSeek V позиціонується як базова модель, що прагне до максимальної універсальності. Важливим етапом стала модель V3, випущена у грудні 2024 року, яка заклала міцну основу для високої продуктивності завдяки ефективній архітектурі MoE. Після цього DeepSeek швидко оновилася, випустивши V3.1 з покращеними можливостями дедукції та агентів, а у грудні 2025 року — останню офіційну версію V3.2. Також був випущений спеціальний варіант V3.2-Speciale, орієнтований на складні математичні та академічні задачі.
Технологічний медіа The Information раніше повідомляло, що DeepSeek планує випустити нову флагманську модель AI — DeepSeek V4 — посеред лютого, під час святкування китайського Нового року, з покращеними можливостями написання коду.
На початку цього року команда DeepSeek опублікувала дві статті, в яких розкрила дві інноваційні архітектури: mHC (маніфольдне обмеження надзв’язку) для оптимізації потоків інформації у глибоких трансформерах, що робить тренування моделей більш стабільним і масштабованим без додаткових обчислювальних ресурсів; та Engram (модуль умовної пам’яті), який розділяє статичні знання і динамічні обчислення, зберігаючи фактичні знання у дешевій DRAM-пам’яті, звільняючи дорогий HBM для дедукції, що значно знижує витрати на довгий контекст.
У той же день з’явилися новини і про MiniMax: модель M2.5 скоро офіційно запуститься, і наразі MiniMax M2.5 проходить внутрішнє тестування на закордонних платформах MiniMax Agent.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Deepseek, 智谱, MiniMax колективно оголосили про нові релізи
Важливі новини про великі моделі штучного інтелекту в Китаї поступово з’являються.
11 лютого ввечері офіційний представник Zhipu підтвердив, що таємнича модель «Pony Alpha», яка раніше очолювала рейтинг популярності на глобальній платформі сервісів моделей OpenRouter, є новою моделлю Zhipu — GLM-5. Наразі нова модель вже доступна на платформі chat.z.ai.
6 лютого глобальна платформа сервісів моделей OpenRouter тихо запустила анонімну модель з кодовою назвою «Pony Alpha». Завдяки високій здатності кодування, наддовгому контекстному вікну та глибокій оптимізації для робочих процесів агентів, вона швидко привернула увагу спільноти розробників і здобула популярність за кордоном.
Офіційний сайт OpenRouter описує Pony Alpha як «передову базову модель», яка демонструє сильні результати у програмуванні, робочих процесах агентів, дедукції та рольовій грі, особливо підкреслюючи її «надзвичайно високу точність викликів інструментів». Ця характеристика дає їй значну перевагу у застосуваннях AI Agent, дозволяючи розробникам через інструменти на кшталт Claude Code викликати цю модель для розробки складних проектів тривалістю до кількох годин.
8 січня Zhipu офіційно розпочала торгівлю на Гонконгській біржі. У день виходу компанія надіслала внутрішнього листа всім співробітникам, у якому головний науковець компанії, професор кафедри інформатики Тяньцзиньського університету Тан Цзе, підтвердив, що нове покоління базової моделі GLM-5 «незабаром буде випущено», і оголосив про «повернення до досліджень базових моделей з 2026 року», а також створення передового інноваційного відділу X-Lab, який зосередиться на архітектурі, навчальних парадигмах і безперервній еволюції.
Крім того, DeepSeek оновила свої моделі. За повідомленнями, кілька користувачів повідомили, що DeepSeek оновила версії на веб-інтерфейсі та в додатку, підтримуючи максимальну довжину контексту до 1 мільйона токенів. У версії DeepSeekV3.1, випущеній у серпні минулого року, довжина контексту була розширена до 128 тисяч.
Зараз моделей, здатних обробляти контекст до мільйона токенів, небагато. Першими це реалізували серії Gemini від Google і Claude Opus 4.6 від Anthropic.
Модель серії DeepSeek V позиціонується як базова модель, що прагне до максимальної універсальності. Важливим етапом стала модель V3, випущена у грудні 2024 року, яка заклала міцну основу для високої продуктивності завдяки ефективній архітектурі MoE. Після цього DeepSeek швидко оновилася, випустивши V3.1 з покращеними можливостями дедукції та агентів, а у грудні 2025 року — останню офіційну версію V3.2. Також був випущений спеціальний варіант V3.2-Speciale, орієнтований на складні математичні та академічні задачі.
Технологічний медіа The Information раніше повідомляло, що DeepSeek планує випустити нову флагманську модель AI — DeepSeek V4 — посеред лютого, під час святкування китайського Нового року, з покращеними можливостями написання коду.
На початку цього року команда DeepSeek опублікувала дві статті, в яких розкрила дві інноваційні архітектури: mHC (маніфольдне обмеження надзв’язку) для оптимізації потоків інформації у глибоких трансформерах, що робить тренування моделей більш стабільним і масштабованим без додаткових обчислювальних ресурсів; та Engram (модуль умовної пам’яті), який розділяє статичні знання і динамічні обчислення, зберігаючи фактичні знання у дешевій DRAM-пам’яті, звільняючи дорогий HBM для дедукції, що значно знижує витрати на довгий контекст.
У той же день з’явилися новини і про MiniMax: модель M2.5 скоро офіційно запуститься, і наразі MiniMax M2.5 проходить внутрішнє тестування на закордонних платформах MiniMax Agent.