Останнім часом у всьому технологічному та інвестиційному світі всі зосереджені на одній темі: як застосування штучного інтелекту «вбиває» традиційний SaaS. Після того, як @AnthropicAI Claude Cowork продемонстрував, наскільки легко він може допомогти вам написати лист, зробити презентацію або проаналізувати Excel-таблицю, почалася паніка щодо «софту, що помер». Це дійсно лякає, але якщо ви зупинитеся лише на цьому, ви можете пропустити справжню велетенську землетрус.
Це як коли всі дивляться у небо на безпілотні дрони у повітряних боях, але ніхто не помічає, що під ногами наша материкова плита тихо рухається. Справжня буря ховається під водою, у куточку, який більшість не бачить: основа всього AI — обчислювальна потужність — переживає «тиху революцію».
І ця революція може змусити продавців AI — компанію Nvidia @nvidia — раптово закінчити свою грандіозну вечірку раніше, ніж всі очікували.
Дві перехрещені революційні дороги
Ця революція — не один окремий випадок, а переплетення двох технологічних шляхів, які здаються незалежними. Вони, наче дві армії, що оточують, створюють натиск на домінування GPU Nvidia.
Перша — революція у зменшенні алгоритмів.
Чи замислювалися ви, чи справді для роботи суперінтелекту потрібно активувати всі нейрони? Очевидно, ні. DeepSeek зрозумів це і створив архітектуру MoE (мішаний експертний модель).
Її можна уявити як компанію, де працює кілька сотень експертів у різних галузях. Але під час вирішення проблеми на зборах достатньо запросити двох-трьох найбільш релевантних, а не всіх одразу для мозкового штурму. Ось у чому розумність MoE: вона дозволяє великій моделі під час кожного обчислення активувати лише невелику частину «експертів», що значно економить обчислювальні ресурси.
Який буде результат? Модель DeepSeek-V2, номінально з 236 мільярдами «експертів» (параметрів), під час роботи активує лише 21 мільярд, менше ніж 9% від загальної кількості. А її продуктивність може конкурувати з GPT-4, що працює на 100% ресурсів. Що це означає? Можливості AI і споживана ним обчислювальна потужність роз’єднані!
Раніше ми вважали, що чим сильніший AI, тим більше графічних карток він спалює. Тепер DeepSeek показує, що за допомогою розумних алгоритмів можна досягти того ж ефекту за десяту частину вартості. Це прямо ставить під сумнів необхідність у GPU Nvidia.
Друга — революція у апаратному забезпеченні «зміни смуги».
Обчислювальні задачі AI поділяються на тренування та інференс. Тренування — це як школа, потрібно читати тисячі книг, і тут GPU, що «робить чудеса» у паралельних обчисленнях, дуже корисні. Але інференс — це те, що ми використовуємо щодня, і тут важлива швидкість реакції.
GPU мають природний недолік у інференсі: їхня пам’ять (HBM) — зовнішня, і передача даних між пам’яттю і процесором має затримки. Це як кухар, у якого інгредієнти з холодильника у сусідній кімнаті — кожного разу доводиться бігати за ними, і навіть швидко — не так швидко. Компанії Cerebras, Groq створили спеціальні чіпи для інференсу, де пам’ять (SRAM) вмонтована безпосередньо у чіп, і інгредієнти — під рукою, що забезпечує «нульову затримку» доступу.
Ринок уже голосує грошима. OpenAI скаржиться на неефективність GPU Nvidia для інференсу, але одразу укладає контракт на 10 мільярдів доларів із Cerebras для оренди їхніх сервісів. Nvidia сама почала нервувати і витратила 20 мільярдів доларів, щоб придбати Groq, щоб не відставати на цій новій дорозі.
Коли ці дві дороги зійдуться: ціновий вибух
Тепер уявімо: модель DeepSeek, «зменшена» за допомогою алгоритму MoE, працює на апаратурі Cerebras з «нульовою затримкою».
Що станеться?
Це буде ціновий лавинний ефект.
По-перше, зменшена модель дуже мала і цілком поміститься у внутрішню пам’ять чіпа. По-друге, без зовнішніх затримок у пам’яті швидкість реакції AI буде неймовірною. В результаті: витрати на тренування знизилися на 90% завдяки архітектурі MoE, а на інференс — ще на порядок завдяки спеціалізованому обладнанню і розрідженим обчисленням. Загалом, щоб створити і запустити AI світового рівня, потрібно лише 10-15% від традиційної вартості GPU.
Це не просто покращення — це новий парадигмальний зсув.
Премія Nvidia, що тримала її на троні, починає тихо зніматися
Тепер ви зрозумієте, чому це більш смертельно, ніж «паніка Cowork».
Мільярди ринкової капіталізації Nvidia базуються на простій історії: AI — це майбутнє, і майбутнє AI — тільки з моїми GPU. Але тепер ця основа починає хитатися.
На ринку тренувань, навіть якщо Nvidia залишиться монополістом, якщо клієнти зможуть робити роботу за десяту частину карт, загальний обсяг ринку може суттєво зменшитися.
На ринку інференсу, у десять разів більшому за тренувальний, Nvidia вже не має абсолютної переваги і стикається з натиском з боку Google, Cerebras та інших гігантів. Навіть її найбільший клієнт — OpenAI — вже «бунтує».
Якщо Уолл-стріт усвідомить, що «копалки» Nvidia вже не є єдиним і навіть найкращим вибором, і оцінка, побудована на «постійній монополії», почне падати — що станеться? Всі це добре знають.
Отже, найбільший чорний лебідь у найближчі півроку — це не новий AI, що знищує когось, а, можливо, непомітна технічна новина: наприклад, новий науковий документ про ефективність MoE або звіт про стрімке зростання частки ринку спеціалізованих чіпів для інференсу, що тихо оголосить про початок нової епохи у боротьбі за обчислювальні ресурси.
Коли «продавці лопат» вже не будуть єдиним вибором, їхня золота ера може закінчитися.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Наступний землетрус у сфері штучного інтелекту: чому справжня небезпека — це не вбивця SaaS, а революція обчислювальної потужності?
Написано: Bruce
Останнім часом у всьому технологічному та інвестиційному світі всі зосереджені на одній темі: як застосування штучного інтелекту «вбиває» традиційний SaaS. Після того, як @AnthropicAI Claude Cowork продемонстрував, наскільки легко він може допомогти вам написати лист, зробити презентацію або проаналізувати Excel-таблицю, почалася паніка щодо «софту, що помер». Це дійсно лякає, але якщо ви зупинитеся лише на цьому, ви можете пропустити справжню велетенську землетрус.
Це як коли всі дивляться у небо на безпілотні дрони у повітряних боях, але ніхто не помічає, що під ногами наша материкова плита тихо рухається. Справжня буря ховається під водою, у куточку, який більшість не бачить: основа всього AI — обчислювальна потужність — переживає «тиху революцію».
І ця революція може змусити продавців AI — компанію Nvidia @nvidia — раптово закінчити свою грандіозну вечірку раніше, ніж всі очікували.
Дві перехрещені революційні дороги
Ця революція — не один окремий випадок, а переплетення двох технологічних шляхів, які здаються незалежними. Вони, наче дві армії, що оточують, створюють натиск на домінування GPU Nvidia.
Перша — революція у зменшенні алгоритмів.
Чи замислювалися ви, чи справді для роботи суперінтелекту потрібно активувати всі нейрони? Очевидно, ні. DeepSeek зрозумів це і створив архітектуру MoE (мішаний експертний модель).
Її можна уявити як компанію, де працює кілька сотень експертів у різних галузях. Але під час вирішення проблеми на зборах достатньо запросити двох-трьох найбільш релевантних, а не всіх одразу для мозкового штурму. Ось у чому розумність MoE: вона дозволяє великій моделі під час кожного обчислення активувати лише невелику частину «експертів», що значно економить обчислювальні ресурси.
Який буде результат? Модель DeepSeek-V2, номінально з 236 мільярдами «експертів» (параметрів), під час роботи активує лише 21 мільярд, менше ніж 9% від загальної кількості. А її продуктивність може конкурувати з GPT-4, що працює на 100% ресурсів. Що це означає? Можливості AI і споживана ним обчислювальна потужність роз’єднані!
Раніше ми вважали, що чим сильніший AI, тим більше графічних карток він спалює. Тепер DeepSeek показує, що за допомогою розумних алгоритмів можна досягти того ж ефекту за десяту частину вартості. Це прямо ставить під сумнів необхідність у GPU Nvidia.
Друга — революція у апаратному забезпеченні «зміни смуги».
Обчислювальні задачі AI поділяються на тренування та інференс. Тренування — це як школа, потрібно читати тисячі книг, і тут GPU, що «робить чудеса» у паралельних обчисленнях, дуже корисні. Але інференс — це те, що ми використовуємо щодня, і тут важлива швидкість реакції.
GPU мають природний недолік у інференсі: їхня пам’ять (HBM) — зовнішня, і передача даних між пам’яттю і процесором має затримки. Це як кухар, у якого інгредієнти з холодильника у сусідній кімнаті — кожного разу доводиться бігати за ними, і навіть швидко — не так швидко. Компанії Cerebras, Groq створили спеціальні чіпи для інференсу, де пам’ять (SRAM) вмонтована безпосередньо у чіп, і інгредієнти — під рукою, що забезпечує «нульову затримку» доступу.
Ринок уже голосує грошима. OpenAI скаржиться на неефективність GPU Nvidia для інференсу, але одразу укладає контракт на 10 мільярдів доларів із Cerebras для оренди їхніх сервісів. Nvidia сама почала нервувати і витратила 20 мільярдів доларів, щоб придбати Groq, щоб не відставати на цій новій дорозі.
Коли ці дві дороги зійдуться: ціновий вибух
Тепер уявімо: модель DeepSeek, «зменшена» за допомогою алгоритму MoE, працює на апаратурі Cerebras з «нульовою затримкою».
Що станеться?
Це буде ціновий лавинний ефект.
По-перше, зменшена модель дуже мала і цілком поміститься у внутрішню пам’ять чіпа. По-друге, без зовнішніх затримок у пам’яті швидкість реакції AI буде неймовірною. В результаті: витрати на тренування знизилися на 90% завдяки архітектурі MoE, а на інференс — ще на порядок завдяки спеціалізованому обладнанню і розрідженим обчисленням. Загалом, щоб створити і запустити AI світового рівня, потрібно лише 10-15% від традиційної вартості GPU.
Це не просто покращення — це новий парадигмальний зсув.
Премія Nvidia, що тримала її на троні, починає тихо зніматися
Тепер ви зрозумієте, чому це більш смертельно, ніж «паніка Cowork».
Мільярди ринкової капіталізації Nvidia базуються на простій історії: AI — це майбутнє, і майбутнє AI — тільки з моїми GPU. Але тепер ця основа починає хитатися.
На ринку тренувань, навіть якщо Nvidia залишиться монополістом, якщо клієнти зможуть робити роботу за десяту частину карт, загальний обсяг ринку може суттєво зменшитися.
На ринку інференсу, у десять разів більшому за тренувальний, Nvidia вже не має абсолютної переваги і стикається з натиском з боку Google, Cerebras та інших гігантів. Навіть її найбільший клієнт — OpenAI — вже «бунтує».
Якщо Уолл-стріт усвідомить, що «копалки» Nvidia вже не є єдиним і навіть найкращим вибором, і оцінка, побудована на «постійній монополії», почне падати — що станеться? Всі це добре знають.
Отже, найбільший чорний лебідь у найближчі півроку — це не новий AI, що знищує когось, а, можливо, непомітна технічна новина: наприклад, новий науковий документ про ефективність MoE або звіт про стрімке зростання частки ринку спеціалізованих чіпів для інференсу, що тихо оголосить про початок нової епохи у боротьбі за обчислювальні ресурси.
Коли «продавці лопат» вже не будуть єдиним вибором, їхня золота ера може закінчитися.