DeepSeek опубликовала новую статью, подписанную Лян Вэньфэном: предложена новая архитектура mHC для повышения стабильности обучения больших моделей

PANews сообщил 1 января, что, по словам Jinshi, DeepSeek выпустила новую статью, предлагающую новую архитектуру под названием многообразно-ограниченная гиперсвязь (mHC), которая направлена на решение проблем нестабильности обучения и ограниченной масштабируемости, вызванных разрушением характеристик картирования идентичности в технологии сети гиперсоединения (HC). Эта архитектура достигает значительных улучшений производительности и превосходной масштабируемости, сопоставляя остаточное пространство соединений HC с определёнными коллекторами для восстановления характеристик идентификационного отображения, при этом внедряя строгие оптимизации инфраструктуры для повышения эффективности. DeepSeek ожидает, что mHC, как гибкое и практическое расширение HC, поможет лучше понять топологическую архитектуру и указать перспективное направление для эволюции базовой модели. Статью написали в соавторстве Чжэнда Се, Исюань Вэй и Хуаньци Цао как первые авторы, а Лян Вэньфэн также входит в список авторов.

Посмотреть Оригинал
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев