Обработка в памяти - In-memory processing

В Информатика, обработка в памяти это новая технология^{[нужна цитата ]} за обработка данных хранится в база данных в памяти. Старые системы были основаны на дисковое хранилище и реляционные базы данных с помощью SQL язык запросов, но они все чаще рассматриваются как неадекватные для удовлетворения бизнес-аналитика (BI) потребности. Поскольку доступ к сохраненным данным происходит намного быстрее, когда они помещаются в оперативная память (RAM) или флэш-память обработка в памяти позволяет анализировать данные в реальное время, позволяя быстрее создавать отчеты и принимать решения в бизнесе.^[1]^[2]

Дисковая бизнес-аналитика

Структуры данных

При использовании дисковой технологии данные загружаются на компьютер. жесткий диск в виде нескольких таблиц и многомерных структур, по которым выполняются запросы. Дисковые технологии системы управления реляционными базами данных (RDMS), часто основанный на языке структурированных запросов (SQL ), Такие как SQL Server, MySQL, Oracle и много других. RDMS разработаны с учетом требований транзакционная обработка. Используя базу данных, которая поддерживает вставки и обновления, а также выполнение агрегирования, присоединяется (типично для решений бизнес-аналитики) обычно очень медленные. Еще один недостаток заключается в том, что SQL предназначен для эффективной выборки строк данных, в то время как запросы бизнес-аналитики обычно включают выборку частичных строк данных с тяжелыми вычислениями.

Для повышения производительности запросов многомерные базы данных или Кубы OLAP - также называемые многомерной онлайн-аналитической обработкой (MOLAP). Создание куба - сложный и длительный процесс, и изменение структуры куба для адаптации к динамически меняющимся потребностям бизнеса может быть обременительным. Кубы предварительно заполнены данными для ответа на определенные запросы, и хотя они повышают производительность, они по-прежнему не подходят для ответов на специальные запросы.^[3]

Персонал информационных технологий (ИТ) тратит значительное время на разработку на оптимизацию баз данных, построение индексы и агрегаты, проектируя кубики и звездные схемы, моделирование данных и анализ запросов.^[4]

Скорость обработки

Чтение данных с жесткого диска происходит намного медленнее (возможно, в сотни раз) по сравнению с чтением тех же данных из ОЗУ. Производительность сильно падает, особенно при анализе больших объемов данных. Хотя SQL - очень мощный инструмент, выполнение сложных запросов занимает относительно много времени и часто приводит к снижению производительности обработки транзакций. Чтобы получить результаты в приемлемое время отклика, многие хранилища данных были разработаны для предварительного расчета сводок и ответов только на определенные запросы. Оптимизированные алгоритмы агрегирования необходимы для повышения производительности.

Инструменты обработки в памяти

Обработка памяти может выполняться с помощью традиционных баз данных, таких как Oracle, DB2 или же Microsoft SQL Server или через NoSQL предложения, такие как в памяти сетка данных подобно Hazelcast, Infinispan, Oracle Coherence или программное обеспечение ScaleOut. С базой данных в памяти и сетка данных, вся информация изначально загружается в RAM или flash память вместо жесткие диски. С сетка данных обработка происходит в три порядок величины быстрее, чем реляционные базы данных, которые имеют расширенные функции, такие как КИСЛОТА которые снижают производительность в качестве компенсации за дополнительную функциональность. Прибытие из столбцовые базы данных, которые хранят схожую информацию вместе, позволяют хранить данные более эффективно и с большей сжатие соотношения. Это позволяет хранить огромные объемы данных в одном физическом пространстве, уменьшая объем памяти, необходимый для выполнения запроса, и увеличивая скорость обработки. Многие пользователи и поставщики программного обеспечения интегрировали флэш-память в свои системы, чтобы позволить системам более экономично масштабироваться до больших наборов данных. Oracle интегрирует флэш-память в Oracle Exadata продукты для повышения производительности. Microsoft SQL Server 2012 Программное обеспечение BI / Data Warehousing было дополнено Память скрипки массивы флэш-памяти, позволяющие обрабатывать в памяти наборы данных размером более 20 ТБ.^[5]

Пользователи запрашивают данные, загруженные в память системы, тем самым избегая медленного доступа к базе данных и проблем с производительностью. Это отличается от кеширование, очень широко используемый метод для ускорения выполнения запросов, поскольку кеши представляют собой подмножества очень определенных заранее определенных организованных данных. С инструментами в памяти данные, доступные для анализа, могут достигать размера витрина данных или небольшое хранилище данных, которое полностью находится в памяти. К нему могут быстро получить доступ несколько одновременных пользователей или приложений на подробном уровне, и он предлагает потенциал для расширенной аналитики, а также для масштабирования и увеличения скорости приложения. Теоретически скорость доступа к данным увеличивается в 10 000–1 000 000 раз по сравнению с диском.^{[нужна цитата ]} Это также сводит к минимуму необходимость настройки производительности ИТ-персоналом и обеспечивает более быстрое обслуживание конечных пользователей.

Преимущества технологии обработки в оперативной памяти

Определенные разработки в компьютерных технологиях и бизнес-требованиях имеют тенденцию увеличивать относительные преимущества технологии in-memory.^[6]

Аппаратное обеспечение становится все дешевле и эффективнее, согласно Закон Мура. Вычислительная мощность удваивается каждые два-три года при одновременном снижении затрат. Процессор, память и дисковое хранилище подпадают под действие этого закона. Также аппаратные инновации, такие как многоядерная архитектура, Флэш-память NAND, параллельные серверы и увеличенные возможности обработки памяти, в дополнение к программным нововведениям, таким как базы данных, ориентированные на столбцы, методы сжатия и обработка агрегированных таблиц, - все это способствовало увеличению спроса на продукты в оперативной памяти.^[7]
Появление 64-битные операционные системы, которые позволяют получить доступ к гораздо большему объему оперативной памяти (до 100 ГБ и более), чем 2 или 4 ГБ, доступные в 32-разрядных системах. Предоставляя терабайты (1 ТБ = 1024 ГБ) для хранения и анализа, 64-разрядные операционные системы делают обработку в памяти масштабируемой. Использование флэш-памяти позволяет системам более экономично масштабироваться до многих терабайт.
Увеличение объемы данных означают, что традиционные хранилища данных больше не могут обрабатывать данные своевременно и точно. В извлечь, преобразовать, загрузить (ETL) процесс, который периодически обновляет хранилища данных рабочими данными, может занять от нескольких часов до недель. Таким образом, в любой момент времени данные старше одного дня. Обработка в памяти обеспечивает мгновенный доступ к терабайтам данных для создания отчетов в реальном времени.
Обработка в памяти доступна в более низкая стоимость по сравнению с традиционными инструментами бизнес-аналитики, и их легче развертывать и обслуживать. Согласно опросу Gartner,^{[нужна цитата ]} развертывание традиционных инструментов бизнес-аналитики может занять до 17 месяцев. Многие поставщики хранилищ данных предпочитают технологию in-memory традиционной бизнес-аналитике, чтобы ускорить внедрение.

Применение в бизнесе

Ряд продуктов в памяти обеспечивает возможность подключения к существующим источникам данных и доступ к визуально насыщенным интерактивным панелям мониторинга. Это позволяет бизнес-аналитикам и конечным пользователям создавать настраиваемые отчеты и запросы без особой подготовки или опыта. Простая навигация и возможность изменять запросы на лету приносит пользу многим пользователям. Поскольку эти информационные панели могут быть заполнены свежими данными, пользователи имеют доступ к данным в реальном времени и могут создавать отчеты за считанные минуты. Обработка в памяти может быть особенно полезной в колл-центры и складское хозяйство.^[8]

При обработке в памяти исходная база данных запрашивается только один раз вместо того, чтобы обращаться к базе данных каждый раз при выполнении запроса, что устраняет повторяющуюся обработку и снижает нагрузку на серверы баз данных. Планируя заполнение базы данных в оперативной памяти на ночь, серверы баз данных могут использоваться для рабочих целей в часы пик.

Принятие технологии in-memory

При большом количестве пользователей для конфигурации в памяти требуется большой объем оперативной памяти, что, в свою очередь, влияет на стоимость оборудования. Вложения, скорее всего, будут подходящими в ситуациях, когда скорость ответа на запрос является высоким приоритетом, и где наблюдается значительный рост объема данных и возрастает спрос на средства отчетности; он все еще может быть нерентабельным, если информация не подвержена быстрым изменениям. Безопасность - еще одно соображение, так как инструменты в памяти предоставляют конечным пользователям огромные объемы данных. Производители советуют обеспечить доступ к данным только авторизованным пользователям.^[9]