On-chain-данные — это информация, которая фиксируется в блокчейне. Поскольку блокчейн — это распределённая база данных, такие данные доступны всем и могут быть просмотрены любым пользователем.
Web3 и web2 — разные версии Всемирной паутины. Web3 — наиболее современная и технологичная версия. Основные различия между ними:
Web3 децентрализован, а web2 централизован. В web3 данные и сервисы предоставляются распределённой сетью узлов, а не одной организацией. Это делает web3 более устойчивым и менее уязвимым к цензуре или сбоям, но при этом усложняет управление и контроль.
Web3 основан на технологии блокчейн, а web2 — на традиционной клиент-серверной архитектуре. В web3 данные хранятся и передаются с помощью криптографических алгоритмов, а не через центральный сервер. Это обеспечивает большую безопасность и прозрачность, но снижает скорость и увеличивает стоимость операций.
Web3 направлен на создание новых приложений и сервисов, а web2 — на совершенствование существующих. Web3 более экспериментальный и ориентирован на будущее, а web2 — зрелый и устоявшийся.

Эти отличия определяют подходы к анализу данных в каждом из этих окружений. В web3 анализ данных сосредоточен на изучении поведения децентрализованных сетей и технологии блокчейн. Для этого часто применяют машинное обучение и сетевой анализ, чтобы выявлять закономерности и тренды. В web2 анализ данных направлен на понимание поведения пользователей и их приложений. Здесь используют традиционные методы, такие как статистический анализ и визуализация данных, чтобы выявить тенденции и инсайты.
Для анализа on-chain-данных требуется собрать и структурировать необходимые данные, а затем с помощью инструментов визуализации и статистического анализа определить закономерности и тренды. Это позволяет лучше понять поведение сети блокчейна и её пользователей, а также делать прогнозы относительно развития рынка. В ряде случаев используют методы машинного обучения для автоматизации анализа и поиска сложных паттернов.
On-chain-данные делятся на две категории:
Сырые данные
Абстрагированные данные
Категории выделяются потому, что все вычисляемые метрики представляют собой абстракции над сырыми данными. Сырые on-chain-данные — это необработанная информация, записанная в блокчейне. Она включает данные о транзакциях: кто отправил, кто получил, сколько криптовалюты переведено. Экономические данные формируются на основе сырых данных и содержат сведения о спросе и предложении конкретной криптовалюты, её рыночной капитализации и объёме торгов.

Экономические данные — это не только абстракция над сырыми данными, но и результат различных методов расчёта и применения метрик. Например, рыночная капитализация рассчитывается как произведение общего объёма выпуска криптовалюты на её текущую цену, а объём торгов — как сумма всех транзакций за определённый период. Другие метрики, такие как скорость обращения средств или отношение стоимости сети к объёму транзакций, вычисляются по более сложным формулам с учётом числа транзакций и активности сети.
Экономические данные дают более высокий уровень обзора рынка криптовалют и полезны для понимания рыночных трендов и принятия инвестиционных решений. Однако такие данные не всегда полностью и точно отражают реальное положение дел на рынке, поэтому использовать их нужно с осторожностью.
Централизация и децентрализация
Для индексирования on-chain-данных применяются централизованные и децентрализованные решения. В централизованных системах сбор и организацию данных выполняет одна организация, в децентрализованных — распределённая сеть узлов. К примерам относятся блокчейн-обозреватели, позволяющие искать и просматривать данные, и сервисы индексирования с API и инструментами для доступа к on-chain-данным и их анализа.
Децентрализованное аналитическое решение на базе блокчейна возможно, но всё зависит от требований и ограничений системы. Преимущество децентрализованного подхода — обеспечение целостности и безопасности данных. Однако такие системы сложнее проектировать и внедрять, они требуют дополнительных вычислительных и дисковых ресурсов. По производительности децентрализованные решения могут уступать централизованным, но это зависит от используемых алгоритмов, структур данных и архитектуры системы. Выбор подхода определяется целями аналитического решения.
В on-chain-аналитике применяются различные методологии. Наиболее распространённые:
Дескриптивный анализ — это суммирование и описание данных, включая расчёт базовых статистик и построение визуализаций. Он позволяет получить общее представление о данных, выявить тренды и паттерны.


Эксплораторный анализ — это более глубокое изучение данных, включая кластеризацию и понижение размерности. Такой анализ помогает находить скрытые закономерности и связи, а также выдвигать гипотезы для дальнейших исследований.


Инференциальный анализ основан на статистических методах для вывода о генеральной совокупности на основе выборки. Используются методы расчёта среднего, медианы, моды, стандартного отклонения, проверки гипотез и регрессии. Такой анализ полезен для прогнозирования и обобщения, помогает выявлять тренды и закономерности, которые не всегда очевидны сразу.


Прогнозный анализ использует алгоритмы машинного обучения для предсказания будущих событий или результатов на основе данных. Такой подход позволяет выявлять тренды и паттерны, а также делать прогнозы и рекомендации. Обычно применяются кластеризация, классификация и регрессия для поиска закономерностей и связей.

Конкретная методика анализа on-chain-данных зависит от целей исследования и особенностей данных.
Визуализация данных — это распространённый инструмент для представления сложной информации в наглядной форме. Используются графики, диаграммы, карты для выявления трендов и закономерностей. Например, линейный график может отобразить динамику цены криптовалюты, а столбчатая диаграмма — сравнить рыночную капитализацию разных активов. Инструменты визуализации позволяют создавать интерактивные схемы для глубокого анализа и работы с данными в реальном времени. Это помогает выявлять связи и паттерны, которые неочевидны при анализе сырых данных.

Возможно возникнет вопрос: зачем использовать визуализацию, если блокчейн-обозреватели уже дают всю информацию? Инструменты визуализации и блокчейн-обозреватели решают разные задачи и предоставляют разные типы данных.

Визуализация ориентирована на наглядное представление информации, что облегчает поиск трендов и закономерностей. Блокчейн-обозреватели — онлайн-инструменты для просмотра блоков, транзакций и адресов, с удобным интерфейсом для доступа к данным, но без расширенного анализа и визуализации. Обычно визуализация используется совместно с обозревателями для комплексного анализа блокчейна.
В обсуждении будущего Web3 и data science выделяют четыре аспекта:
Web3 расширит рынок труда для специалистов по анализу данных и других профессионалов. Организации, внедряющие Web3, будут нуждаться в экспертах по анализу, интерпретации и созданию продуктов и сервисов на базе данных с применением ИИ и машинного обучения.

Web3 обеспечит финансовые преимущества пользователям и специалистам по анализу данных. Компании смогут покупать данные напрямую у пользователей, объединять их с существующими наборами для улучшения моделей и продавать новые инсайты на открытом рынке.
Data science-специалисты смогут применять ИИ для глубокого понимания индивидуальных потребностей клиентов в Web3. Data-компании создадут языковые модели для семантического анализа, поскольку Web3 ориентирован на пользователя, а данные связаны с пользовательским взаимодействием. Это позволит разрабатывать персонализированные решения. Также компании смогут превращать инсайты из сырых данных в более точные продуктовые рекомендации, улучшая клиентский опыт на основе ожиданий пользователей.
В эпоху Web3 специалисты по анализу данных будут играть ключевую роль в мировой экономике. Они станут новыми «нейронами», способными создавать контент или ИИ-модели для взаимодействия с другими моделями и решения сложных задач или потенциальных рисков для бизнеса и организаций.