Дедупликация данных

Дедупликация данных

Дедупликация данных — это технология, при помощи которой обнаруживаются и исключаются избыточные данные в дисковом хранилище. Например, путем замены повторных копий данных ссылками на первую копию. Это позволяет сократить объёмы физических носителей для хранения тех же объёмов данных.

Простой пример: при использовании централизованной корпоративной почтовой системы когда сотрудник отправляет письмо с вложенным файлом размером 1 МБ двум своим коллегам, это письмо сохраняется 1) в папке «Исходящие» отправителя, 2) в папке «Входящие» двух получателей, 3) все это дублируется в резервной копии базы данных (как минимум в одной). Итого 6 копий — 6 МБ. После дедупликации остаётся 1 МБ. Это пример дедупликации на уровне базы данных почтового сервера, в системах хранения эта технология реализована более сложным образом.

Использование дедупликации данных активно развивается в области хранения данных резервного копирования, как среди аппаратных устройств (NetApp VTL и Nearstore, EMC Data Domain), так и для программных решений (Symantec Backup Exec 2010, и др.), так как, зачастую, в результате сохранения резервных копий, на устройствах хранения оказываются практически идентичные по содержимому файлы с минимальными изменениями в них. Использование дедупликации позволяет не только экономить пространство хранения, но и увеличивать скорость сохранения и восстановления данных, за счет меньшего объема считывания-записи данных резервных копий.

Другим активно развивающимся направлением, получающим большие выгоды от использования дедупликации, являются системы серверной виртуализации, так как содержимое множества образов виртуальных машин зачастую идентично на 80-90 и более процентов (одна и та же версия OS, с идентичным набором системных файлов, service packs и patch level). На сегодня пока только системы хранения компании NetApp, использующие внутреннюю файловую систему WAFL имеют возможность реализовать дедупликацию на оперативных, primary хранилищах данных, без значительного негативного эффекта на их производительность. Использование дедупликации NetApp для хранилищ данных и образов виртуальных машин зачастую позволяет снизить хранимые объемы на 80-90 %, без заметного снижения производительности, а, в ряде случаев, и повышает ее, так как дедуплицированный набор данных занимает меньше пространства в кэш-памяти системы хранения, и позволяет поместить в кэш значительно большие, чем без дедупликации, объемы данных.

Ссылки



Wikimedia Foundation. 2010.

Игры ⚽ Нужно решить контрольную?

Полезное


Смотреть что такое "Дедупликация данных" в других словарях:

  • SpiderOak — SpiderOak …   Википедия

  • NetBackup — NetBackup  программное обеспечение корпорации Symantec для обеспечения резервного копирования и восстановления данных в средних и крупных гетерогенных сетях. Поддерживает широкий спектр операционных систем из семейств Linux, UNIX, Solaris и… …   Википедия

  • Btrfs — Информация в этой статье или некоторых её разделах устарела. Вы можете помочь проекту, обновив её и убрав после этого данный шаблон …   Википедия

  • ZFS — Разработчик Oracle (ранее Sun Microsystems) Файловая система ZFS Zettabyte File System Дата представления Ноябрь 2005 (OpenSolaris) Структура Содержимое папок Расширяемая хэш таблица …   Википедия

  • Write Anywhere File Layout — (WAFL) «Файловая структура с записью повсюду» внутренняя высокопроизводительная файловая система, используемая в специализированной ОС Data ONTAP в сетевых системах хранения данных компании NetApp. В WAFL используется способ, при котором единожды …   Википедия


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»