Хорошо

Новые требования к СХД от ИИ и машинного обучения

191 0 3 0 0

ИИ, МО и большие данные: требования к хранению данных


Все проекты в области больших данных и ИИ должны сочетать производительность, мощность и экономичность. Но это сочетание будет варьироваться в зависимости от приложения и того, на каком этапе жизненного цикла оно находится. Проекты, основанные на неструктурированных данных, особенно это касается изображений и видео, содержат большие одиночные файлы. Кроме того, ИИ-приложения, которые предназначены для наблюдения и распознавания лиц, геологических, научных и медицинских исследований, используют большие файлы и поэтому требуют СХД, оперирующих масштабом петабайтов. Чтобы эффективно выполнять свои задачи приложениям, которые работают с бизнес-данными, то есть ERP и ей подобными системами, может потребоваться всего несколько сотен мегабайтов. Так называемые сенсорные приложения, которые предназначены для технического обслуживания, ремонта и капитального ремонта на транспорте и в энергетике, могут работать с сотнями гигабайтов.


Между тем приложения с интенсивными вычислениями, предназначенными для обучения МО и плотных нейронных сетей, нуждаются в высокой пропускной способности и низкой задержке. Но помимо этого им также необходим доступ к масштабируемому недорогому хранилищу для потенциально больших объемов данных. Наиболее интенсивной с точки зрения сбора данных является фаза обучения или тренинга, причем для создания лучшей модели требуется большое количество данных.


Приложения ИИ и МО также обладают разными циклами запроса на хранение. Фаза обучения является наиболее интенсивной с использованием большого объема данных, и чем выше объем данных, тем более эффективна. В связи с этим система хранения должна идти в ногу с вычислительными движками, которые запускают алгоритм. Обучение модели требует высокой пропускной способности и низкой задержки.


IOPS — не единственная характеристика для СХД


После обучения ИИ-системы требования к СХД снижаются, потому что тогда модель обозревает уже только релевантные данные. На этом этапе отзывчивость становится более важнее, чем пропускная способность, и это является проблемой для ИТ-департаментов, потому что традиционные решения для хранения данных настроены на то, чтобы одинаково быстро обрабатывать операции как для последовательного, так и случайного ввода-вывода. Что касается аналитики данных, то типичные пакетные рабочие процессы должны максимально использовать для ускорения обработки вычислительные ресурсы.


Как следствие, большие данные и аналитические проекты лучше всего работают с распределенными данными, отмечает вице-президент Acronis по Северной Европе Ронан Маккартин. «Лучше всего для аналитики данных подходит распределенное хранилище, а такие технологии, как Hadoop или Spark — для анализа больших данных. С их помощью аналитик может обходить ограничения памяти и запускать задачи на нескольких машинах. Для обучения ИИ/МО и вывода результатов также требуется быстрое SSD-хранилище», — сказал он. Но SSD-технологии обычно слишком дороги для больших объемов данных и длительного хранения, тогда как необходимость репликации томов для распределенной обработки увеличивает расходы.


По словам старшего директора Dell Technologies Стивена Гилдердейла, организации сместили фокус внимания от ERP и CRM к более интенсивному применению неструктурированных данных. Также шагнула вперед и аналитика. Теперь она применяется не просто для изучения накопленных за определенное время данных («оглянуться назад, чтобы двигаться вперед») — сегодня все большее значение приобретают прогнозная аналитика и аналитика реального времени, которая в том числе применяется для анализа данных, собранных датчиками. Объемы данных здесь меньше, но чтобы вовремя поделиться с бизнесом результатом анализа, системе нужно обрабатывать данные очень быстро. Помимо этого разработчикам системы требуется обеспечить для нее высокую пропускную способность. Это побуждает архитекторов обратить внимание на Edge Computing, часто в сочетании с централизованными облачным хранилищем и вычислениями.


Методы организации систем хранения для ИИ/МО и их ограничения


Чтобы соответствовать требованиям, предъявляемым ИИ/МО , ИТ-менеджерам необходимо выбрать и совместить следующие типы хранилищ:


  • высокая производительность — NVMe и флэш-память;

  • большая емкость — высокопроизводительный HDD в сочетании с флэш-памятью/расширенным кэшированием;

  • автономное хранение и хранение холодных данных — диск с оптимизированной емкостью, облачное хранилище, ленточный накопитель.

  • Аналитика и ИИ/МО — лучшие кандидаты для многоуровневого хранения, поскольку оно позволяет разработчикам систем размещать самые дорогие и высокопроизводительные ресурсы как можно ближе к вычислительным ресурсам, тогда как для архивирования данных применять хранилище большой емкости.


Архитектура также будет зависеть от типа данных, обрабатываемых системой. Gartner, например, предполагает, что лучшая схема хранения для работающих с неструктурированными данными ИИ/МО — это NVMe over Fabics, энергонезависимая память и распределенные файловые системы, и все это будет разворачиваться локально или с использованием гибридной облачной архитектуры. В то же время аналитические проекты, скорее всего, будут применять конвергентные хранилища файлов и объектов, а также гибридные модели. Это требуется для того, чтобы они могли со временем масштабироваться и воспользоваться преимуществами долгосрочного облачного хранения данных.


В зависимости от бизнес-вопросов, проекты могут обрабатывать данные, которые были собраны в течение нескольких часов или нескольких лет, поэтому архитекторам системы хранения следует предусмотреть возможность быстрого и экономичного обновления данных за минувшие периоды.


Аналитике реального времени требуется тесная взаимосвязь с источниками данных, вычислений и хранилищами. Это побуждает организации использовать облачные гипермасштабируемые услуги — это в первую очередь AWS, Azure и GCP — для выбора различных уровней производительности и хранения, а также для нескольких географических локаций. Однако универсального технологического решения не существует, и предприятию неизбежно придется идти на компромисс.


  • x

Комментарий

Выполните вход в систему, чтобы ответить на пост. Вход | Регистрация
Отправить

Внимание! В целях защиты правовых интересов Вас, сообщества и третьих лиц, не публикуйте любой материал, содержащий политические высказывания, порнографию, упоминание азартных игр, употребление наркотиков, а также материал, нарушающий коммерческую тайну или содержащий персональные данные пользователей. Также не предоставляйте данные от вашей учетной записи. Вы будете нести ответственность за все действия, выполняемые под вашим аккаунтом. Подробная информация: “Политика конфиденциальности..”

My Followers

Авторизуйтесь и пользуйтесь всеми преимуществами участника!

Вход

Заблокировать
Вы уверены, что хотите заблокировать этого пользователя?
Пользователи из вашего черного списка не могут комментировать ваши посты, не могут упоминать вас, не могут отправлять личные сообщения.
Напоминание
Пожалуйста, привяжите свой мобильный номер чтобы получить бонус за приглашение.