DEV Community: Mikhail

Высоконагруженные системы. Глава 6. Секционирование.

Mikhail — Tue, 06 Feb 2024 22:14:20 +0000

Основное

Секционирование - это разбиение данных на секции, чтобы каждый элемент данных был в каждой секции (в отличиее от репликации, где каждый элемент данных хранится в каждом узле). Основная цель секционирования - масштабируемость, так как увеличивается пропускная способность на кол-во запросов, так как секции независимы.

При этом секционирование и репликация используются чаще всего вместе, так как первое дает масштабирумость и второе - отказоустойчивость. На каждом узле хранится несколько секций (но не обязтельно все). И для одних секций один и тот же узел может быть ведущим, а для других секций - ведомым (что лишний раз показывает независимость секций).

Подходы к секционированию

Секционирование по диапазону ключей

Этот подход заключается в том, чтобы закрепить за каждой секций диапазон значению ключа. Например, за секцией 1 - значения от А до В, за секций 2 - от Г до Е и т.д. При этом внутри самой секции используются SS-таблицы (под капотом самобалансирующиеся структуры данных - AVL дерево, например), благодаря которым значения отсортированы и становися просто искать по диапазону.

Однако такой подход имеет недостаток - вероятность "горячей точки". Это значение, по которому осуществлено секционирование, по которому слишком много данных (например, в декабре кол-во транзакций гораздо больше, чем в другие месяцы). В результате секция может быть перегружена данными.

Секциоинирование по хэшу ключа

Этот подход решает проблему "горячих точек". Хорошая хэш-функция возвращает равномерно распределенные значения для разных ключей. Можно каждоый секции сопоставить диапазон значения хэш функции. Однако теряется возможность быстрого поиска по диапазону, так как близкие по значению ключи лежат теперь уже в разных секциях. Также стоит иметь в виду, что данный подход не защищает от крайнего случая "горячей точки", когда все операции происходит по одному и тому же ключю.

Секционирование и вторичные индексы

Вторичные индексы в отличие от ключей не идентифицируют однозначно запись - а значит, нельзя им поставить в соответствие определенную секцию. Но есть 2 варианта, как использовать вторичный индекс.

Секционирование вторичных индексов по документам

Этот подход заключается в том, что внутри каждой секции строится свой независимый индекс. Поэтому при добавлении/изменении данных в секции меняется только этот индекс. Поэтому его еще называют локальным.

Минусом такого подхода является то, что при поиске приходится делать запросы во все секции и объединять полученные результаты, что весьма затратно по времени.

Секционирование вторичных индексов по термам

Этот подход заключается в том, что индекс секционирован по нескольким узлам. Например, поле color - значениям цвета, начинаяющимся с буквы a до r, соответствует секция 1. А цветам от s до z - секция 2.

Благодаря такому подходу скоросить поиска сильно возрастает по сравнению с индексом по документу. Однако скорость записи наоборот, падает, так как при этом подходе секции становятся связанными, ведь индекс по термам может содержать ссылку на данные из другой секции.

Маршрутизация запросов

Когда клиент делает запрос, откуда он знает, к какому узлу обратиться (какие секции какому узлу соответствуют)? Есть несколько вариантов:

сами узлы могут знать - тогда при обращении на узел, он может отправить на другой, если у него нет требуемой секции
использование gateway, у которого есть эта информация
хранить эту информацию на самом клиенте

Высоконагруженные системы. Глава 5. Репликация.

Mikhail — Fri, 02 Feb 2024 19:42:09 +0000

Основное

Репликация - это хранение копий одних и тех же данных по нескольким серверам, соединенным по сети. Репликация служит для нескольких целей:

Доставка контента из географически близкого к пользователю сервера
Чтобы система продолжала работать при отказе некоторых серверов БД
Для горизонтально масштабирования по чтению

Говоря о репликация, пользуются термином узел (синоним сервера). Узел при репликации может быть ведущим (куда может осуществляться и запись, и чтение) и ведомым (только для чтения).

Репликация бывает следующих видов с точки зрения узлов:

Репликация с одним ведущим узлов. Клиенты пишут в один узел. После этого записи отправляются в ведомые узлы. Есть риск чтения устаревшых данных с узлов, куда данные по какой-то причине не дошли.
Репликация с несколькими ведущими узлами. Клиенты могут писать в разные узлы. После этого записи отправляются с ведущего на другие ведущие и ведомые. Доступность выше чем в варианте с одним узлов, однако появляется вероятность конфликтов при записи, когда после нескольких записей в разные ведущие узлы на них хранятся разные версии одной и той же записи и непонятно, какая итоговая.
Репликация без ведущего узла. Название немного не отражает сути - ведь все узлы ведущие. Клиенты могуть писать в любые узлы. Данные в этот момент не отправляются в другие узлы. Только при чтении происходит проверка всех узлов в поиске самой последней версии. Отдаются свежие данные и во время/после этого актуализируются остальные ноды.

Репликация бывает следующих видов в точки зрения момента отправки записей с одного узла на другой:

Синхронная. Гарантирует согласованность данных на всех узлах. Клиент всегда будет читать свежие данные. Однако обладает низкой доступностью, так как один недоступный узел влечет неуспех записи на остальных узлах, так как повлечет откат. И скорость записи снижается, так как клиент должен дождаться, пока данные скопируются на все узлы.
Асинхронная. Не гарантирует согласованности, поэтому есть вероятность чтения устаревшых данных. Обладает высокой доступностью, так как копирование с одного узла на другой происходит уже после того, как клиент получил "успех" при записи. Скорость записи высокая.
Смешанная. Не гарантирует абсолютной согласованности и обладает средней доступностью. На какие-то узлы репликация синхронна. После этого запись для клиента считается "успешной". Затем в фоне происходит копирование на остальные ведомые узлы.

Как раз смешанный вариант на практике показывает селя лучше всего.

Реализация репликации

Операторная. Заключается в том, что с ведущего узла на ведомые передаются sql операторы. Однако в таком виде недерменированные функции (now(), rand()) возвращали бы на разных узлах разные результаты. Аналогично с счетчиками, которые должны для каждой записи выполняться строго в том же порядке, что и на ведущем узле. Поэтому на практике команды передаются немного в измененном виде - вызов недерменированных функция заменен на их результат на ведущем узле.
Раньше такая репликация использовалась в MySQL.
Перенос WAL журнала
Все записываемые данные заносятся в журнал упреждаюей записи. Этот журнал хранится в бинарном виде. Можно этот журнал отправлять на ведомые узлы. Недостаток в том, что есть привязка к внутренней структуре бинарного файла (к уровню физического представления), которая от версии к версии субд может меняться. Поэтому во первых, на всех узлах должны быть СУБД одинаковой версии, а обновление СУБД становится головной болью.
Этот метод репликации используется в PostgreSQL.
Логическая репликация. Подразумевает использование логического журнала, в котором в утвержденном формате хранятся строки, однозначно описыващие операции с данными. Например, для обновления это идентификатор, список измененных полей и их новых значения. Для удаление - только идентификатор. С ведущего узла на ведомые передается записи из логического журнала. Формат этих записей не привязан к версии СУБД и может легко парсится внешними приложениями

Проблемы задержки репликации

Как уже написал, использование асинхронной репликации может приводить к несогласованности данных между узлами. Рассмотрим возможные проблемы и пути их решения.

Чтение своих же устаревшых записей

Это очень частый сценарий - пользователь точно знает, какие данные вставлял или модифицировал. Поэтому, если отдадутся устаревшие данные, пользователь это сразу заметит. Вариантов решения несколько:

"свои" данные читать только с ведущего узла (например, информация о своем профиле) - в большинстве случаев невозможен, так как таких данных может быть очень много. Да и вообще на корню рушит идею высокой доступности, ради которой затевалась идея с репликацией.
отслеживать время последней модификации данных - на первое время читать с ведущего, а все остальное время с ведомого.
развитие предыдущего пункта - передавать при чтении метку времени последней записи, и если напротив записи в БД метка меньше (т.е. изменения еще не дошли), то читать с ведущего

В идее с меткой времени также стоит помнить, что клиент может заходить с разных устройств, и информацию о времени последней модификации нужно хранить в централизованном месте (этим снижается доступность).

Монотонное чтение

Есть вероятность, что при каждом чтении пользовател будет видеть данные в разном порядке.
Возможное решение - дать пользователю возможность читать только с какой-то одной реплики (которая присваиватся пользователю по хэшу ид пользователя, например). Тогда есть гарантия, что чтения будут в неименающимся порядке порядке (но гарантии чтения самых актуальных данных нет, так как данные по присвоенного ведомого узла могли не дойти). Также нет гарантии, что пользователь будет видеть записи в том порядке, в котором они были при записи (для этого при чтении можно делать сортировку).

Согласованное префиксное чтение

Есть вероятность потери причинно-следственных связей, если на реплику более новая запись попала раньше более старой (например, сначала ответ, затем - чтение). Гарантия согласованного префиксного чтения гарантирует, что данные будут прочитаны в том же порядке, в котором были записаны. Для этого можно использовать метки времени, читая в отсортированном виде.

Репликация с несколькими ведущими узлами

обработка конфликтов

Предположим, что есть 2 ведущих узла - 1 и 2. И есть пользователь 1 и 2, и записывают они данные в таком порядке 1 -> 1, 2 -> 2. Первый пользователь меняет запись A на B на ведущем узле 1, второй - A на C на ведущем узле 2. Возникает конфликт при попытке реплицировать изменения с одного ведущего на другой. Возможное решение - изменение одной и той же строки делать через один и тот же узел. Если узел выходит из строя, менять на другой. Если такой возможности нет, то можно напротив строчки ставить метку времени и при конфликте выигрывает значение с самым большим значением этой метки.

Топология репликации с несколькими ведущими узлами

Сущестуют следущие топологии

Колько
Звезда
Каждый с каждым

Топология "каждый с каждым" самая общая и надежная. Топология "звезда" подразумевает использование центрального узла, через которой идет коммуникация, что снижает надежность. Топология "кольцо" самая ненадежная (и несмотря на это, используется в MySQL), так как узел может получить запись строго от конкретного узла. И если один узел вышел из строя, то репликация до узлов, следующих за ним, встанет.

Репликация без ведущих узлов

При записи какие-то узлы могут быть недоступны. Пусть есть n узлов, на w узлов усуществилась запись и с r узлов читают. Тогда гарантией, что всегда при такой конфигурации будут читаться актульные данные, является условие w + r > n (это условие показывает, что узлы для записи и чтения пересекаются) - тогда операции записи и чтения называются операциями по кворуму. Тогда можно считать итоговый результат операции записи или чтения неуспешным, если не выполняется условие выше.

Highload Junior. 1. HighLoad++ для начинающих

Mikhail — Tue, 14 Nov 2023 17:55:39 +0000

Проблематика

Высокая нагрузка - это нагрузка, с которой по какой-то причине не справляется железо (не хватает CPU или памяти).

На данный момент с развитием железа проблемы его нехватки отпали, если приложение тормозит, то в 99% случаев это косяк в архитектуре.

Расммотрим рядовую операцию на бэкенде

Прием данных по сети
Парсинг полученных данных
Взаимодействие с БД
Формирование ответа
Отправка ответа клиенту

Самый простой способ реализовать эту операцию - использовать один поток на один запрос. Но тогда быстро упремся в кол-во обрабатываемых запросов в секунду.
Далее можно увеличить кол-во используемых котоков или процессов, распределить нагрузку между несколькими серверами.
Однако все это не даст значительного прироста в RPS - он останется в пределах нескольких сотен.

При этом если проанализировать, сколько времени выполняется каждый из пунктов в операции на бэкенде, то увидим, что:

Прием данных по сети - 15к в сек
Парсинг полученных данных - 15к в сек
Взаимодействие с БД - 60к в сек
Формирование ответа - 100к в сек
Отправка ответа клиенту - 15к в сек

Если этого все сложить по формуле

1/sum(1/freq(i))

то получим 6к запросов в секунду, а не условно 500.

В таких случаях нужно заняться профайлингом. Тогда увидим, что код выполняется процессором от силы 10% всего времени, а остальное времени идет ожидание от БД и сети.

Событийно-ориентированная архитектура

Решить предыдущую проблему поможет изменение парадигмы программирования.

Событийно-ориентированная архитектура подразумевает, что выполнение программы определяется событиями, на которые осуществилась "подписка". То есть мы говорим, что когда поступит событие успешного сохранения в БД, сделай то-то.
Это то-то определяем в колбеке, который передаем отдельным аргументом. Из-за этого придется менять основную часть кодовой базы, которая крутится вокруг взаимодействия по сети.

Также приходится решать проблемы, связанные со сменой парадигмы.

сохранение контекста между колбеками
обработка исключений

Чтобы было нагляднее, традиционную парадигму с потоками можно сравнить с обувным магазином, где покупатель часто находится в ожидании, когда ему принесут обувь.
А событийно-ориентированную парадигму - с продуктовым магазином, где продавец всегда при деле находится и обслуживает очередь.

Green Threads

Если брать обычные потоки, то их переключением занимается планировщик в составе операционной системы.
Однако можно написать собственный планировщик, который бы управлял зелеными потоками (эмуляция многопоточной среды - подпрограмма), переключаясь между ними в момент ожидания операций ввода/вывода в одном.
Соответственно, если операция сугубо процессорная, то профита не будет.

Тогда если соединить вместе друг с другом свой планировщик и машину событий, то получим таком порядок выполнения операции:

Регистрация событий в машине состояний
Передача управления планировщику
При наступлении события планировщик будит зеленый поток
Программа работает с данными от события, которое наступило в пред. пункте

Т.е. зеленый поток усыпляется до тех пор, пока не наступает событие.

Такой подход подразумевает использования библиотеки для использования зеленых потоков и написания кода-оберток над БД и сетевых вызовов.

Глава 4. Кодирование и эволюция

Mikhail — Mon, 13 Nov 2023 21:36:24 +0000

Введение

С течением времени приложение меняется. Однако данные, с которыми работает новая версия приложение, могли быть созданы еще при старой версии приложения.
Тем не менее приложение должно уметь работать как со старым форматом данных, так и с новым. Это называется обратной совместимостью.

Также бывает нужно, чтобы старая версия приложения умела работать с данными, созданными более новой версией приложения.
Например, при плавающем обновлении, когда на некоторых нодах развернута уже новая версия приложения, а где-то старая. Это называется прямой соместимостью.

Форматы кодирования данных

Для разных целей одни и те же данные могут представляться по-разному. Для хранения использоваться один формат, а для пересылки по сети - другой.
Преобразование из формата для хранения в формат для пересылки называется кодированием, маршаллингом или сериализацией. Обратное преобразование, когда получатель получил данные - декодированием, демаршаллингом или десериализацией.

Форматы, ориентированные на ЯП

В большинстве языков программирования есть "нативная" сериализация, достигаемая минимумом кода (например, java.io.Serializable в Java). Однако такие реализации имеют много минусов:

Она заточена под один язык программирования. А значит, программы, написанные на разных ЯП, не смогут "общаться".
Как правило, низкая эффективность по скорости и размеру потребляемой памяти.
Проблемы с безопасностью - если подложить для декодирования вредоносные данные, то после декодирования будет в памяти объект, способный выполнять вредные вещи.
Плохо продуманы вопросы, касающиеся совместимости.

Текстовые форматы данных

XML

Многословный текстовый формат, часто применяющийся к корпоративных приложениях, особенно, если они были написаны в 90-е и 2000-е. В XML нет типов данных как таковых. Все можно считать строкой.
Но можно подключить схему валидации (своего рода костыль). Для XML использование схем валидации частое явление.

JSON

Текстовый формат, часто применяющийся в современных приложениях. Менее многословный, чем XML. Также поддерживает схемы валидации, однако для JSON они на практике очень редко используются.
Зато есть поддержка типов данных (boolean, string, int64). Однако есть проблема с большими числами - числа более 2^53 кодируются с неточностями из-за представления числа с плавающей точкой по стандарту IEEE-754.

Также есть двочные кодирования для JSON - BSON, MessagePack и др. Но они редко использутся и дают не настолько сильный выигрыш в снижении объема данных, чтобы терять в удобочитаемости. Я встречал в БД его использование.

Стоит отметить, что оба формат не поддерживают работу с бинарными строками. Поэтому использутся костыль в виде base64 кодирования, который примерно на 30% увеличивает объем данных.

Двоичные форматы данных

Apache Thrift и Protocol Buffers - популярные библиотеки для кодирования данных. Оба требуют предварительно иметь на отправителе и получателе схему.
Отчасти благодаря тому, что часть необходимой для кодирования/декодирования данных информации зашита в схему, достигается сильное снижение объема данных.

Apache Thrift

Protobuf

Так как protobuf популярнее, рассмотрим его устройство подробнее.

Вместо названия полей в protobuf в закодированных данных хранятся тип значения (число), теги полей - числа (что-то вроде псевдонимов для полей), длина (для строки) и сами данные.

В итоге данные, которые в JSON весили 84 байта, в protobuf весят 33.

Однако что с совместимостью у бинарных форматов?

Как видно, закодированная запись это просто конкатенация закодированных полей.

Если поле добавляется, то чтобы новый код мог работать со старыми данными, новое поле должно быть необязательным или иметь дефолтное значение - тогда новая версия приложения может читать старые данные.
Если поле удаляется, то чтобы старый код мог работать с новым форматом поле удаляемое поле должно быть необязательным изначально и тег для него нельзя будет использовать для новых полей.

Способы обмена данными

Теперь рассмотрим способы отправки данных в форматах, описанных ранее.

Существует 3 способа обмена данными между процессами на одной ноде или разных:

через общую БД
через REST или RPC
асинхронный обмен через очередь сообщений

Общая БД

Самый примитивный способ интеграции приложений, дающей сильное связывание между компонентами. Однако есть и плюс - актуальная схема данных хорошо видна.
Для достижения прямой совместимости нельзя допускать, чтобы старая версия приложения целиком перезаписывала всю строку.

REST и RPC

RPC - удаленный вызов процедур. В коде приложения это выглядит как вызов локальной функции. Популярный паттерн коммуникации в SOA (сервис ориентированной) архитектуре.
Чаще всего RPC реализуется через SOAP протокол. В его основе лежит протокол HTTP. Однако SOAP не использует никакие его возможности, такие как использование кодов ответов, заголовков.
API сервиса, поддерживающего общение по SOAP, описывается на XML через WSDL схему. На основе этой схеме генерируются нужные методы на языках программирования.

REST - подход к проектированю систем, общающихся по http и по-максимому использующих его возможности. В качестве формата данных могут использоваться разные форматы, однако чаще всего это JSON.

Очереди сообщения

RPC - синхронный способ обмена сообщениями.

БД - асинхронный, но изначально предполагающий использование в качестве хранилища данных.

Очередь - тоже асинхронный способ, но изначально предполагающий использование для обемена сообщениями. Поэтому имеет такие сущности как топик, смещение, издатель и подписчик. Благодаря этим абстракциям обмен данными многими с многими упрощается.

Преимущества ипользования очередей по сравнению с RPC:

очередь является буфером, смягчающим скачки нагрузки на приложение
уменьшает связанность компонетов системы (отправителю не нужно знать адрес получателя)
автоматически повтор отправки в случае сбоя

Примеры часто использующихся брокеров сообщения: RabbitMQ, Apache Kafka, NATS.

Глава 3. Подсистемы хранения и извлечения данных

Mikhail — Sun, 12 Nov 2023 20:56:32 +0000

Вступление

Журнал - самая простая структура для хранения данных в принципе. Она позвляет дописывать данные только в конец.
Если рассмотреть данные вида ключ-значение, то при вставке записи с тем же ключом в журнале будут дублирующие данные.
Сложность поиска по журналу - O(n). Это много.
Для более эффективного поиска данных используются вспомогательные структуры, производные от основных данных - индексы.
Поддержка индексов приводит к более быстрому поиску, но более медленной вставке и удалению, так как индексы тоже подлежат обновлению.
Поэтому на усмотрение разработчика выбор индексов.

Индексы

Журнал + хэш карта

Самый простой вариант индекса для данных вида ключ-значение - хэш карта. Она будет хранить смещение в файле данных.
Однако эта реализация с журналом имеет недостаток - файл с данными будет постоянно увеличиваться на диске.
Поэтому можно придумать оптимизацию - разделить журнал на сегменты и фоном выполнять уплотнение сегментов, убирая "старые" значения для ключей. Этот процесс называется уплотнением журнала.
У каждого сегмента будет свой индекс - своя хэш таблица.

Чтобы уплотнение не мешало основным операциям с данными, можно совершать уплотнение, оставляя старые сегменты и только после успешного уплотнения переключать запросы на "новые" сегменты.

Плюсы:

быстрое чтение O(1) поиск по индексу + перемещение на позицию в файле.
реализация конкурентного доступа упрощается, так как данные идемпотентны, ведь любое изменение записи ведет к созданию новой записи
добавление в конец и слияние - очень быстрые операция на SSD и особенно на HDD дисках
благодаря слиянию достигается лишь небольшая фрагментация данных

Минусы:

запись может осуществляться в одном потоке, так как запись идет всегда в коней файла. Это замедляет параллельную запись.
нет возможности поиска по интервалу

Также нужно обдумать следующие вопросы:

удаление данных - можно добавить каждой записи в сегменте метку признака удаления
восстановление после сбоя - так как индекс (хэш карта) хранится в оперативной памяти, то после сбоя придется ее восстанавливать, проходя через все сегменты, что займет много времени. Можно периодически делать снэпшоты хэш карты на диск

Описываемый метод исользуется в подсистеме BitCask NoSQL БД RiakDB

Sorted String Table + хэш карта

Журнал обладал тем минусом, что данные в нем не были отсортированы. Поэтому объединение сегментов там выполнялось за O(n^2), а для поиска по интервалу требовалось для каждого значения из интервала осуществлять отдельный поиск.

Поэтому эффективнее держать часть данных в оперативной памяти, а часть - на диске.
В памяти удобно держать сбалансированную структуру данных (данные в ней отсортированы - при вставке происходит ребаланс),
которую бы можно было при достижении определенного размера скидывать на диск в виде Sorted String Table (отсортированная строковая таблица), которая в фоне уплотняется, как в сортировке слиянием - O(n).

Благодаря этому больше нет необходимости хранить в индексе смещение для данных по всем ключам, так как, например, если известно смещение для ключей a и c, то смещение для ключа b будет где-то между ними.

Описываемый метод используется в БД LevelDB

В-деревья

B-деревья - самый распространенный тип индекса.
В отличие от журнала, основой которого является сегмент данных переменного размера, в B-деревьях данные разделяются на страницы фиксированного размера (обычно 4кб). Диски тоже разбиваются на блоки фикс. размера.

Все страницы, кроме страниц в листях, указывают на другие страницы B-дерева на диске. В листьях страницы содержат ссылку на страницу со значением в основной таблице с данными.
Кол-во ссылок на дочерние страницы называется коэффициентом ветвления. На практике он равен нескольким сотням.

Если на странице нет места, то создается 2 новых полупустых страницы, куда копируются данные из старой таблицы и со стороны родителей перевешиваются указатели на новые страницы.

B-дерево - сбалансированное дерево. Его высота и сложность поиска - O(log(n)).

На практике дерево содержит высоту 3-4 уровня.

Чтобы сделать бд с индексом на основе B-дерева отказоустойчивой, используются журнал упреждающей записи (WAL - write ahead log),
в который записывается действие - только после этого происходит изменение самого B-дерева (а само изменение из-за ребаланса может быть значительным).

Оптимизации:

можно хранить на страницах не полные значение ключей, а часть (актуально, если ключ - строка), ведь во внутренних узлах при сравнении используется лишь часть ключа.
вместо wal журнала можно делать копию узлов b дерева, которые связаны с измененной страницей. Это полезно при конкурентном доступе.

По итогу SS таблицы быстрее при записи, но медленнее при чтении, чем B-деревья.

Хранение в памяти, а не на диске

До этого все рассматриваемые структуры данных использовались для хранения данных на диске. Ранее стоимость места на диске была сильна ниже, чем в оперативной памяти, чей объем был к тому же ограничен.

В данный момент идет тенденция, что в большинстве случаев объема оперативной памяти достаточно для хранения всех данных, а отказоустойчивость осуществляется с помощью репликации по сети и питания от аккумуляторов.

Поэтому в последнее десятилетие активно развивается направление in-memory баз данных, например, Memcached.

Однако не всегда можно заметить разницу между использованием БД, использующих диск и ОП, так как операционная система имеет свой кэш, куда сохраняются наиболее часто используемые страницы диска.

Паттерны использования БД

Существует 2 сценария использования БД - обработка транзакций в реальном времени (OLTP) и аналитика данных (OLAP). Первый используется обычными пользователями, а второй - аналитиками данных.
При обработке транзаций в реальном времени обычно ищется небольшое кол-во записей по ключу (а общий размер всех данных от гб до тб). При аналитике происходит агрегация больших объемов данных (от тб до пб).

Поступление данных в OLAP и OLTP.

Поступление данных в OLTP хранилища происходит через какие-то бизнес процессы (работы клиента с системой обслуживания или работа с POS терминалом). Соответственно, требуется высокая доступность БД и низкая задержка в ответе.

Поступление данных в OLAP хранилища осуществляется через групповой испорт (ETL - extract transform load) или потоковую загрузку.

Схемы для аналитики

В аналитике популярна схема звезда и ее развитие - снежинка.

В звезде имеется таблица с фактами - запись с внешники ключами на таблица с атрибутами (концы звезды)

В снежинке точно так же, только измерения разделяются на подизмерения.

Столбцовое хранение

В таблице могут быть триллионы строк и петабайты данных. Значения соседних полей одной строки лежат рядом на диске. В аналитике обычно требуются не все поля, но все строки. Поэтому удобно хранить данные не по строкам, а по столбцам.
Тогда можно на диске иметь свой файл под каждое поле.

Для оптимизации хранения полей, у которых фикисрованный набор значений, можно использовать битовые маски.

Высоконагруженные системы. Глава 2. Модели данных и языки запросов.

Mikhail — Sat, 04 Nov 2023 19:37:59 +0000

Вступление

Модель данных - это способ представления некоторых данных. Данные можно представить на разных уровнях, поэтому между собой модели данных образуют иерархию, когда одна модель данных выражается через другую на языке более низкого уровня. Например:

Выражение процесса в окружающем мире через некоторые структуры данных, а действие с ними через API. Это самый высокий уровень.
При необходимости сохранять эти данные можно выбрать текстовый вид, например в виде json или xml.
Способ внутреннего представления json или xml в БД (на уровне последовательности байт), благодаря чему становятся возможными операции с этими данными, такие как поиск, вставка, обновление, удаление части данных.
Выражение байт в терминах эл. тока. Аппаратный уровень.

Таким образом, верхний слой инкапсулирует сложность нижестоящего слоя.

Уровень 1 можно представить для хранения данных через 3 модели данных:

Документоориентированная модель (иерархическая)
Реляционная
Графовая

Документоориентированная хорошо подходит для хранения иерархических данных со связями 1 ко многим. Однако связь многие ко многим и многие к одному с ее помощью нельзя реализовать. В соответствие с этой моделью данные представляются в виде единого документа. Некоторые из NoSQL баз данных являются представителями этой модели. Получили широкое распространение в 2010-х годах. Данные не имеют четкой структуры.

Плюсы - можно получить за раз все части документа, обеспечивают лучшую локальность данных, лучшую пропускную способность по записи, лучше подходят для выражения некоторых моделей данных (отсюда менее лаконичные запросы) и легко масштабируются

Минусы - в память грузится весь документ. И меняется он тоже весь, что затратно по времени. Реализации этой модели чаще не дают гарантий, которые дает реляционная модель.

Пример - хранения документов в виде json в MongoDB.

Реляционная модель - самая универсальная из трех.

Плюсы: поддерживает все виды соединений и могут представлять иерархические и графовые модели данных (через таблица с ребрами и вершинами и рекурсивные запросы через common table expressions). Также современные реляционные БД позволяют хранить неструктурированные документы json и xml и производить с ними манипуляции.

Минусы: запросы получаются громоздкими, а сами данные организованы сложно для понимания. Пример - PostgreSQL c языком SQL.

Графовая модель является самой узкоспециализированной. Подходит для случаев, когда потенциально любые данные могут быть взаимосвязаны. Для этого вершины еще могут хранить тип сущности. Например, есть пользователь и его место жительства. Пользователь связан с городом. Город связан с регионом. Регион со страной. И все этой разные типы сущностей.

Представляется в виде вершин (сущности) и ребер (связи).

Вершины имеют:

идентификатор
множество ид входящих ребер
множество ид исходящих ребер
метаинформация в виде пар ключ-значение (json)

Ребра имеют:

ид вершины-начала
ид вершины-конца
идентификатор
метаинформация в виде пар ключ-значение (json)
Данные не имеют четкой структуры. Пример - Neo4j с языком запросов Cypher.

Особенность языков запросов к хранилищам

Если рассмотреть языки запросов, которые используют реализации этих трем моделей, до обнаружим, что все они декларативные, когда мы указывает результат, к которому хотим прийти, а вся логика по достижению этого результата определяется оптимизатором.

Высоконагруженные системы. Глава 1. Надежные, масштабируемые и удобные в сопровождении приложения

Mikhail — Sat, 04 Nov 2023 19:25:42 +0000

Приложения могут быть высоконагруженными данными и высоконагруженными вычислениями.

Приложения, высоконагруженные данными, строятся из стандартных блоков:

Долговременное хранение данных (базы данных)
Запоминание на небольшой как правило промежуток времени ресурсоемкой операции (кэши)
Поиск в хранилище данных, фильтрация (поисковые индексы)
Обработка данных без задержек (потоковая обработка)
Обработка накопленных данных (пакетная обработка)
Однако существует много инструментов внутри каждого из блоков, отличающихся друг от друга. Поэтому не все так просто.

Если вкратце, то есть 3 наиболее важных вопроса, которые необходимо рассмотреть при проектировании высоконагруженного приложения:

Надежность (при программных/аппаратных сбоях система должна продолжать работать корректно для пользователя)
Масштабируемость (при росте нагрузки должно быть легко модифицировать системы, чтобы она продолжала справляться с возрошей нагрузки)
Удобство сопровождения (нужно предусмотреть, как системой будут пользоваться рядовые пользователи и ее сопровождения - у него должна быть возможность быстро расследования инцидентов)
Надежность
Надежность - это способность системы продолжать работать корректно при определенных сбоях. Сбои по причинам на 3 группы:

Аппаратные (выход из строя плашки ОЗУ или диска). Выход - использование избыточного кол-ва аппаратного обеспечения, чтобы не наступил уже отказ всей системы.
Программные (провайдер перестал отвечать, процесс исчерпал ресурс). Выход - изначальное продумывание возможных проблем и путей их недопущение, использование средств для ручного мониторинга и алертинга. Автоматический перезапуск системы после фатального сбоя.
Человеческий фактор (неправильная настройка приложения или необработанная ошибка при каком-нибудь пользовательском сценарии). Выход - проектирование с учетом того, чтобы правильные действия было легко сделать, а неправильные - сложно. Грамотно спроектированное API. Зрелый CD (Continious Delivery), когда есть возможность быстрого отката изменения сервиса или конфига и канареечные релизы. Настроить телеметрию приложения для обнаружения проблем на ранней стадии до массового недовольства потребителей.
Масштабируемость
Масштабируемость - способность системы справлять с возрастающими нагрузками. Эта способность измеряется ответами на следующие вопросы:

Насколько сильные изменения нужно произвести с системой, чтобы она стабильно выдерживала в 10 раз большую нагрузку
Каким образом можно увеличить вычислительные ресурсы чтобы системы выдерживала в 10 раз большую нагрузку.
У нагрузки есть параметры, тип которых разнится в зависимости от устройства системы. Это может быть RPS (кол-во запросов в секунду), кол-во одновременных пользователей, делающих что-то, отношение кол-ва операций чтения к кол-ву операций записи в БД.

Пример с Twitter
Например, рассмотрим архитектуру Twitter. Там есть 2 основных действия - публикация твита и просмотр ленты. В данном случае сложность в масштабировании представляет сильная степень разветвления (пользователь подписан на многих и сам имеет много подписчиков). Это и есть параметр масштабирования.

Twitter сначала на каждую операцию обновления делал выборку постов через join авторов постов с теми, на кого подписан пользователь. Это самый примитивный вариант, который довольно скоро оказался нерабочим из-за возросшей нагрузки.

Затем придумали вариант "кэша" для ленты пользователя, когда при публикации твита он попадал в ленты всех пользователей, которые подписаны на его автора. Однако из-за масштабов (особенно для авторов с миллионами подписчиков) проходило много времени между фактической публикации и тем, когда подписчик видел твит в своей ленте.

Поэтому в итоге Twitter остановился на промежуточном варианте, когда твиты знаменитостей подгружаются именно при обновлении ленты и сливаются с "закэшированными" данными от менее популярных авторов.

Описание производительности системы

После описания нагрузки нужно описать производительность. Для этого нужно ответить на 2 вопроса:

Как изменится производительность системы, если параметры нагрузки увеличить в N раз
Насколько нужно увеличить ресурсы, чтобы при увеличении параметров нагрузки в N раз производительность останется той же.
Время обработки запроса - хорошая метрика производительности. При этом есть время отклика (общее время, которое ждет клиент, отправивший запрос) и время ожидания (время, пока запрос ожидает свой обработки сервером). Время отклика важно смотреть в контексте тысяч запросов, чтобы получить распределение времени запросов и иметь общую картину того, что будет происходить в проде. Медиана, 90-й, 95-й, 99-й процентили обычно берут. 99-й процентиль - это такое время отклика, что 99% запросов выполнялись меньше этого времени.

Здесь по оси x - время обработки запроса, а по оси y - кол-во запросов, выполнившихся в определенном коридоре времени.

Такие значения обычно прописываются в требованиях к уровню предоставления сервис (SLA), что 99% запросов должны выполняться меньше 200мс, а 50% - менее 100мс.

Как справиться с нагрузкой

Есть 2 варианта:

Вертикальное масштабирование (увеличение мощности одной машины, на которой работает сервис)
Горизонтальное масштабирование (увеличение кол-ва маломощных машин, на которых работают экземпляры сервиса)
Там, где нужно хранить состояние (например, БД), горизонтальное масштабирование плохо подходит. Горизонтальное масштабирование идеально подходит под "числодробилки", которые состояния не имеют.

Удобство сопровождения

Если коротко, то это грамотно написанный код системы без сильного зацепления модулей для их быстрой модификации и хороший мониторинг.