Константин Анисимов

Текст

Данные — ​новая нефть. Но и новый мусор тоже. Люди постоянно создают информацию, а компании накапливают ее, надеясь повторить успех Amazon или Facebook. Обладатели больших данных часто не понимают, где их хранить и как использовать. Эта проблема уже получила яркое название: «инфоожирение»

Каждый год количество накопленных человечеством данных увеличивается на 30 %. Это огромные темпы, которые постоянно требуют новых мощностей — ​сетей связи, дата-центров, серверов, систем хранения, площадей, электричества. Все это создается за счет ресурсов нашей планеты. Можно долго спорить о нужности всей этой информации. Но факт в том, что мы стоим перед выбором: тратить каждый год на 30 % больше ресурсов или начать относиться к накоплению данных осознанно.

Многие компании стремятся обладать огромным количеством данных, при этом не имея представления, как их использовать и где хранить. Не только фирмы, но и обычные граждане накапливают «информационный жир», то и дело жалуясь на переполненные диски компьютеров и память телефонов. Пора браться за ум, ведь нам есть у кого учиться: специалисты по облачным сервисам экономят немалые средства, оптимизируя хранилища данных. Их методы помогают тратить на складирование информации меньше электричества, тепла и денежных средств.

Температурное ранжирование

Азбучная истина: данные имеют «температуру».

Часто используемые данные, к которым необходим мгновенный доступ, — ​горячие. Примером могут служить статьи популярных веб-сайтов, каталоги интернет-магазинов, свежие посты лидеров мнений в соцсетях.

Данные, которые чуть реже используются и были созданы некоторое время назад, — ​теплые. К ним относятся уже прочитанные отчеты и планы, статистические графики и диаграммы, информационные документы.

Если данные были созданы давно и мало кто помнит, когда ими последний раз пользовались, их относят к холодным. Обычно это старые проекты, информационно устаревшие аудиты и квитанции, старые резервные копии для аварийного восстановления, разномастные архивы.

От «температуры» данных зависит способ их хранения. Горячее хранилище требует премиальных ресурсов в виде скоростных жестких дисков и быстрых интерфейсов, которые связывают отдельные диски в общую систему. Тип данных определяет технологию хранения. Так, структурированные данные удобнее хранить в блочных хранилищах: информация делится на мелкие равные части, каждая из которых имеет адрес. К структурированным данным относятся тексты СМИ, разбитые на отдельные статьи, базы бухгалтерских проводок. Данные в блочных хранилищах легко обновлять: переписывается лишь отдельный блок, в котором произошли изменения, а не файл целиком.

Примером неструктурированных данных может служить фильм. Обновить его можно, лишь заменив целиком весь файл. Но этого обычно не требуется. Подобные данные относятся к категории WORM (Write Once Read Many) — ​записываются единожды, но воспроизводятся многократно легионом пользователей. Для них используют объектные хранилища: на сервер загружаются целые файлы без какой-либо структуры. В частности, метод применяют стриминговые платформы вроде Spotify, Netflix или YouTube.

Для теплых данных можно использовать низкоскоростные диски большой емкости. Подойдет как объектное хранилище, так и файловое — ​с привычной всем пользователям каталожной структурой папок. Файловое хранилище медленнее блочного или объектного, зато ориентироваться в такой информации проще.

Холодные данные можно хранить как на недорогих медленных дисках, так и на ленточных накопителях. Когда речь идет о больших объемах информации, ленты оказываются намного компактнее, экономичнее и надежнее.

Читать на ЦО.РФ

Хранители Как устроен накопитель на магнитных лентах – самый перспективный носитель информации

В 2011 году, когда Gmail уже был самым массовым сервисом электронной почты в мире, на серверах Google произошла череда сбоев. Данные более чем 40 тысяч пользователей оказались утеряны, несмотря на то что дублировались сразу на нескольких жестких дисках. Компании грозили серьезные потери. Избежать скандала и восстановить информацию помог архив, сохранивший все на старых добрых магнитных лентах

Получается, отсортировав данные по «температуре», можно удешевить систему хранения, сэкономить электроэнергию, уменьшить негативное воздействие на окружающую среду, при этом обеспечив более быстрый доступ к информации. Но это лишь вершина айсберга.

Дедупликация

Встав между двух зеркал, увидишь бесконечное количество собственных отражений. Сколько памяти нужно, чтобы их сохранить?

Допустим, популярный блогер размещает пост с актуальной смешной картинкой размером 500 кБ. Миллион человек делится этой картинкой через соцсеть или встроенный в нее мессенджер. Означает ли это, что для хранения всех этих репостов и сообщений системе потребуется 500 терабайт дискового пространства или пара стоек с серверами хранения? К счастью, нет. Сработает технология дедупликации — ​метод сжатия данных, при котором хранится одна копия картинки, а все пос­ты и сообщения, в которых он упоминается, используют лишь ссылку на исходный файл.

Дедупликация уменьшает количество данных на много порядков, позволяя использовать меньше серверов, дисков, электричества и других ресурсов центров обработки данных. Особенно эффективно она работает в социальных сетях, мессенджерах, сетях обмена файлами, в публичных и корпоративных почтовых системах. Ведь пересылаем мы тем или иным способом по большей части одно и то же.

Выявление дубликатов хорошо работает на техническом уровне и гораздо хуже — ​на управленческом. Во многих компаниях есть люди, которые собирают или даже покупают данные, уже полученные их коллегами с другого этажа. Без систематического подхода к сбору и стратегическому управлению данными крупное предприятие может получить обратный результат: данные собирали, чтобы стать более продуктивными, а в конечном итоге собирают и дублируют их столько, что снижают эффективность работы. Американская компания KnowledgeHound построила на этой проблеме бизнес: ее специалисты помогают фирмам экономить деньги, избавляя разные подразделения от покупки одного и того же набора данных.

Переезд поближе

Даже когда мы пересылаем друг другу одну и ту же картинку, она ведь передается на наши устройства по сети?

Получается, популярный мем пролетает столько километров по проводам и радиоволнам, что можно было бы с десяток раз обогнуть Землю? Да, получается так. Но этот путь можно существенно сократить.

Для доставки контента существует технология, похожая на дедупликацию в системах хранения. Речь идет о CDN (Content Delivery Network). Чтобы не пересылать файл многократно по магистральным каналам, его дублируют на кеш-серверах, которые располагают территориально близко к предполагаемым потребителям информации. К примеру, голливудские фильмы снимают в Голливуде и кладут на американские серверы. Но российские зрители смотрят их с многочисленных локальных серверов, разбросанных по всей стране. Гонять огромные объемы трафика через океан не приходится.

Что, если фильм хотят посмотреть одновременно сотни зрителей и все они вдруг оказались в Подмосковье? В этом случае на запрос ответят сразу несколько кеш-серверов, которые разделят нагрузку между собой. Так работают технологии бродкаста и мультикаста. Они тоже помогают оптимизировать количество передаваемой информации при потреблении «тяжелого» контента, такого как телетрансляции, аудио- и видеоконференции, массовые рассылки.

Подобные решения работают не только на операторском уровне, но и на уровне отдельной компании и даже на домашнем. Если сотрудники постоянно обращаются к документам — ​возможно, их стоит хранить локально, а не в облаке. Если члены семьи хотят посмотреть фильм по очереди — ​вероятно, его стоит просто скачать.

Выходит, если обычно инженеры борются с дубликатами контента, то для ускорения его доставки они их, напротив, создают. В итоге технология бережет и ресурсы, и операторов связи, и хранителей данных (хостеров), и конечных пользователей.

Инкрементальное копирование

Еще один огромный пласт данных — ​результат нашей собственной заботы о безопасности.

Речь идет о резервных копиях. Допустим, у предприятия есть база данных бухгалтерской системы 1С на 1 ТБ. Это большая система, в ней каждый день происходят тысячи транзакций, и ни одну нельзя упустить. Поэтому систему настроили таким образом, чтобы каждую ночь делалась полная резервная копия базы данных. Нетрудно посчитать, что уже через 10 дней объем резервных копий превысит рабочую базу в 10 раз и достигнет 10 ТБ.

Можно, конечно, просто удалять резервные копии после определенного периода, убедившись, что они уже не нужны. Но бухгалтерия и аналитики просят хранить резервные копии глубиной в квартал, чтобы они могли «откатиться» на любой из дней в квартале. В результате копится колоссальный объем не просто холодных, а скорее ненужных данных.

К счастью, современные системы резервного копирования умеют делать не только полные копии, но и так называемые инкрементальные. В этом случае создается образ не всех данных, а только тех, которые изменились по отношению к предыдущей версии. Такой подход требует более сложного и дорогого ПО, а также специальных знаний для управления им, особенно при восстановлении данных из резервных копий. Но потенциальная экономия на количестве данных того стоит.

Гигиена данных все больше требует и внимания пользователей, и профессионального подхода. Как с уходом за зубами: мы чистим сами их утром и вечером, но периодически обращаемся к стоматологу.

Константин Анисимов
Константин Анисимов, CEO компании RUSONYX

У профессиональных хостеров есть поговорка: «Клиенты делятся на тех, кто еще не делает бэкапы (резервные копии), и тех, кто уже их делает». Каждый хостер может рассказать множество историй, как порой самым нелепым образом компании теряли свои данные. После нескольких подобных случаев мы в Rusonyx стали делать технический бэкап всего хостинга. Решение было принято в 2015 году. Конечно, это потребовало огромных дополнительных ресурсов: по сути, надо было удвоить емкость всех дисковых систем. С тех пор мы постоянно следим за развитием технологий хранения данных, чтобы оптимизировать затраты. Получается, наши цели абсолютно меркантильны, но в то же время мы изо всех сил стараемся сберечь ресурсы планеты. Нам не нужна Грета Тунберг и воззвания к справедливости. Мы профессионалы, и экономия — ​часть нашего кода. Финансы и профессионализм — ​самые эффективные рычаги в борьбе за экологию. Чем больше людей будут хранить свои данные у профи, то есть в облаках, тем успешнее мы решим задачу оптимизации ресурсов на всех уровнях вплоть до планетарного.

Использованные источники: Материал опубликован в журнале «Цифровой океан» № 5, 2021, Paul Taylor / Stone / Getty Images, Nicole Bouron Flacinet / Ina / AFP / East News, Jonathan Knowles / Stone / Getty Images, Марина Амулина