Как выбрать систему хранения данных?
Каждую минуту в интернете происходит множество событий:
Источник: visualcapitalist.com
Количество данных превышает 120 миллионов гигабайт и дальше будет только расти за счёт цифровизации, повышения качества видео и внедрения интернета вещей.
Поэтому вопрос обработки и сохранения данных становится всё более актуальным и важным.
Компания Fujitsu выделяет требования, которые будут предъявлять пользователи к системам хранения данных (СХД):
- Высокая скорость отклика и масштабируемости системы
- Сохранение или снижение стоимости хранения одного терабайта данных
- Долгий жизненный цикл устройств, поскольку перенос данных с одной СХД на другую может в какой момент парализовать работу компании
Сейчас на рынке есть несколько решений: all flash системы, программно-определяемые, гипермасштабируемые и гиперконвергентные. При выборе архитектуры стоит учитывать не только текущие, но и будущие потребности.
В первую очередь нужно решить: необходимо только увеличение хранилища или потребуется повысить вычислительную мощность СХД.
Далее нужно обратиться к архитектуре сети. Она бывает двух типов:
- Классическая. Сервер, СХД и элементы сети, которые их объединяют. Система получается очень гибкой, поскольку можно менять отдельные элементы, причем в любое время.
- Гиперконвергентная (HCI). В этом случае задачи вычисления и хранения решаются одним устройством, а для расширения сети нужно докупить новое.
Несмотря на рост популярности HCI, обе архитектуры ещё долго будут существовать параллельно, поскольку у каждой есть свои достоинства и недостатки. Например, HCI довольно легко расширить, но при этом увеличивается вычислительная мощность, хотя это не всегда нужно. Таким образом компания переплачивает за лишние возможности.
Но какое именно устройство выбрать?
All flash и гибридные хранилища
В этих устройствах нет механических элементов, а задержки минимальные. Также у них низкое энергопотребление, они небольшие, не нуждаются в сложном обслуживании. Дополнительный стимул к покупке — постоянное снижение цены.
Если объём данных растет постоянно, стоит обратить внимание на технологию программно-определяемого хранилища (SDS). В этом случае специальное ПО объединяет разные физические устройства в одно виртуальное. При этом данные постоянно дублируются на разных узлах.
Например, два сервера могут находиться в разных зданиях, но пользователи будут получать необходимые данные, даже если один сервер выключится или окажется фатально поврежден.
Развернуть SDS можно на текущем оборудовании, а для расширения достаточно подключить новое устройство. В итоге достигается экономия на аппаратном обеспечении, а сама система может успешно работать многие годы.
Однако SDS проявляет свою эффективность, когда объём данных находится в границе 200-300 терабайт. Но, при наличии возможностей, можно использовать SDS и при работе с петабайтными объёмами.
Но с ростом компании требования к СХД меняются: нужно быстрое хранилище (для рабочих процессов) и долговременное для файлов. Помогает связка из all flash(высокая производительность) и SSD или HDD (хранение). Такое гибридное решение подходит для виртуализации, баз данных, работы с онлайн-архивами и неструктурированными данными.
Гибридные системы сложнее в эксплуатации, чем all flash, но ПО для автоматизации возьмёт на себя часть работ:
- Настроит пропускную способность каналов
- Время отклика
- Многоуровневое хранение
При этом гибридные решения выигрывают в стоимости, поскольку позволяют использовать более дешевые HDD, стоимость места на которых до сих пор в четыре раза ниже, чем у SSD. Но в ближайшее время этот ценовой разрыв будет преодолен. Недостаток скорости могут компенсировать сжатие данных и дедупликация, поэтому стоит инвестировать в системы, которые поддерживают данные технологии.
С другой стороны SSD не только в 10 раз быстрее, но и в 6 раз надежней HDD. All flash массивы тратят электроэнергии на 95% меньше. Другая статья экономии — со временем снижаются затраты на обслуживание, поскольку не нужно заниматься оптимизацией и закупкой ПО для новых серверов.
Таким образом при выборе между all flash и гибридной системой нужно найти баланс между затратами (прямыми и косвенными) и необходимой производительностью.
А если скорости не хватает?
Flash-память не достигла пика скорости и возможностей. Её ограничивает SAS соединение, созданное в свое время для жестких дисков. Увеличить скорость должны PCIe и NVMe. Так, SAS позволяет обрабатывать до 256 команд в очереди, но она снижается при работе с высоконагруженными приложениями, например Big Data или IoT. NVMe в свою очередь позволяет получить до 64 000 параллельных потоков. Такая скорость нужна не только для обработки данных, но и при перемещении с одной СХД на другую.
Правда, чтобы оценить возможности NVMe, возможно придётся обновить приложения, серверы и сеть, адаптеры шины на стороне СХД. При этом приложения должны поддерживать параллельную обработку данных.
Появляется и проблема совместимости — будут ли корректно работать вместе старое и новое оборудование? Есть решение от Fujitsu — система управления ETERNUS SF, которая объединяет разные типы СХД (например на flash и NVMe) и позволяет им работать совместно, распределяя ресурсы под разные задачи без усложнения системы.
Однако списывать со счетов all flash хранилища на базе SAS/SCSI тоже не стоит — они остаются оптимальными в соотношении цена\производительность, их достаточно для работы с большинством приложений. Поэтому инвестировать в них стоит хотя бы по той причине, что NVMe может потребовать серьёзной и затратной перестройки IT-инфраструктуры.
Когда нужно выбирать SDS?
Программно-определяемое хранилище подходит для случаев, когда скорость работы и быстрый отклик не имеют особого значения. В SDS собираются диски с разной скоростью работы, необходимостью постоянно копировать данные и отправлять их через сетевое подключение. Однако вскоре появятся all flash масштабируемые SDS-системы, что может положительно повлиять на прогарммно-определяемые хранилища.
И это неудивительно: SDS обещает надежную и безопасную систему, с простой и эффективной масштабируемостью.
Помимо этого, SDS позволяет сэкономить, поскольку используется стандартное серверное оборудование, есть ПО с открытым кодом, например Ceph. Это ПО разработано для хранения объектов из распределенного кластера серверов x86. Ceph поддерживает масштабируемые кластеры до уровня Exabyte.
Впрочем, есть и свои нюансы. Для настройки SDS нужна работа с серверами, сетью, ПО, которое отвечает за хранение и управление данными. А это дополнительная работа для системных администраторов. Также им нужны специальные знания, выходящие за их компетенции. Отдельно стоит отметить сложности, которые могут возникнуть при анализе инцидентов, синхронизации и обновлении оборудования.
Это удерживает часть компаний от внедрения SDS. Поэтому стоит искать готовые и полные SDS-решения.
Конвергентные инфраструктуры
Есть и другие способы организации инфраструктуры хранения данных. Известна следующая проблема: нужно найти баланс между эффективным использованием оборудования, но при этом учитывать новые запросы пользователей и внедрять новшества. В некоторых случаях ситуация осложняется тем, что бизнес-приложения требуют независимой масштабируемости сервера и СХД. В этом случае конвергентные инфраструктуры (CIs) обеспечивают баланс между запросами.
CIs упрощают объедение разных ЦОД и внесение изменений. И вот почему:
- CIs экономят время и деньги, потому что это готовые решения, прошедшие все необходимые тестирования.
- С CIs проще расширять, когда нужно независимое масштабирование для сети, емкости хранилища или увеличения вычислительной мощности.
- CIs снижает совокупную стоимость владения: инфраструктура становится проще, снижает необходимое для работы количество устройств. Это в дальнейшем снижает накладные расходы.
В идеале CIs должны иметь необходимый уровень виртуализации и гибкую аппаратную составляющую, наряду с интегрированным и централизованным управлением. Если это так, то CIs почти так же просты в эксплуатации, как их гиперконвергентные аналоги.
Когда стоит выбрать гиперконвергентное решение?
HCI перестали быть узким нишевым решением. В ближайшее время до 20% критически важных бизнес-приложений будут работать в рамках этой инфраструктуры (сегодня всего 5%)1. Однако традиционные СХД они вряд ли вытеснят целиком.
Чаще всего HCI базируются на платформе х86, они совмещают сервер и СХД. В итоге сокращается парк техники, а системные администраторы могут получить необходимые навыки в ходе работы.
Виртуализация в свою очередь позволяет расширять IT-инфраструктуру без простоев и лишних миграций.
Важно учитывать, что внедрение HCI — это фактически введение в работу новой платформы, которая имеет свои особенности и требует затрат различных ресурсов.
Так, HCI не самый лучший вариант, когда нужно увеличить объём для хранения данных, но не нужна дополнительная мощность.
Чтобы получить желаемое время отклика, размер и конфигурацию HCI нужно учитывать пропускную способность сервера, который будет обеспечивать работу СХД. Поскольку HCI часто является распределённой средой, время отклика дополнительно снижают операции копирования и сеть, на основе которой строится обмен данными. С ростом системы растут и затраты на оптимизацию, настройку и обслуживание, адаптацию к сети. Ко всему HCI может потребовать дополнительную СХД в ЦОД.
Важно! Microsoft и VMware предлагают хорошие продукты для HCI. Их решения универсальны и могут быть развернуты на любом подходящем оборудовании. При этом аппаратная и программная поддержка окажутся разделены, что может затруднить внедрение и обслуживание.
Поэтому стоит обратить внимание на комплексное решение от одного производителя. Fujitsu предлагает именно такие устройства и полнофункциональную поддержку.
Об основных устройствах вы можете прочитать в таблице ниже:
SW-DEFINED |
ETERNUS CD10000 — SDS платформа с максимальной масштабируемостью. Она позволяет экономить при хранении больших объёмов неструктурированных данных, а также данных второго уровня. Сочетание подходящего оборудования и передового ПО с открытым исходным кодом позволяет быстро реализовать SDS. |
HYBRID |
С гибридной системой хранения ETERNUS DX можно достичь максимума возможностей при объедении СХД для структурированных и неструктурированных данных. Это оптимальное решение по сочетанию скорости и ёмкости в рамках одного устройства. Новейшие технологии автоматизации позволяют управлять большим объёмом данных без дополнительного IT-персонала. |
CONVERGED HYPER-CONVERGED |
Конвергентные и гиперконвергентные решения PRIMEFLEX для VMware, Microsoft и других производителей предоставляют все преимущества новых и гибких подходов для внедрения инноваций в работе центра обработки данных. |
Вопрос о том какую систему лучше внедрять и какие устройства закупать не решается за один день, поскольку требует серьёзной работы по анализу сети, потребностей и будущего роста.
Поэтому стоит обратиться к нашим специалистам, которые дадут исчерпывающие ответы и помогут подобрать оптимальное оборудование.
1. Gartner "Стратегическая дорожная карта хранения данных на 2018 год" стр.3, 12 марта 2018 года