Язык программирования, ориентированный на данные - Википедия - Data-centric programming language

Язык программирования, ориентированный на данные определяет категорию языков программирования, основной функцией которых является управление данными и манипулирование ими. Язык программирования, ориентированный на данные, включает встроенные примитивы обработки для доступа к данным, хранящимся в наборах, таблицах, списках и других структурах данных и базах данных, а также для конкретных манипуляций и преобразования данных, требуемых приложением программирования. Языки программирования, ориентированные на данные, обычно декларативный и часто ориентированы на поток данных и определяют желаемый результат обработки; конкретные шаги обработки, необходимые для выполнения обработки, оставлены на усмотрение компилятора языка. В SQL Язык реляционных баз данных является примером декларативного языка, ориентированного на данные. Декларативные языки программирования, ориентированные на данные, идеально подходят для вычисления с интенсивным использованием данных Приложения.

Фон

Быстрый рост Интернет и Всемирная паутина привело к появлению огромного количества информации в Интернете и необходимости Большое количество данных возможности обработки. Деловые и государственные организации создают большие объемы как структурированных, так и неструктурированный информация, которую необходимо обработать, проанализировать и связать.[1] Хранение, управление, доступ и обработка этого огромного количества данных представляет собой фундаментальную потребность и огромную проблему для удовлетворения потребностей в поиске, анализе, добыче и визуализации этих данных как информации.[2] Декларативные языки, ориентированные на данные, все чаще решают эти проблемы, потому что сосредоточение внимания на данных значительно упрощает их выражение.[3]

Архитектуры компьютерных систем, такие как Hadoop и HPCC которые могут поддерживать приложения с параллельными данными, являются потенциальным решением для требований к обработке данных в масштабе терабайтов и петабайт. вычисления с интенсивным использованием данных.[4][5] Кластеры серийного оборудования обычно используются для решения проблем с большими данными.[6] Основные проблемы для приложений больших данных и вычислений с интенсивным использованием данных[7] управляют и обрабатывают экспоненциально растущие объемы данных, значительно сокращая связанные циклы анализа данных для поддержки практических и своевременных приложений, а также разрабатывают новые алгоритмы, которые можно масштабировать для поиска и обработки огромных объемов данных. Национальный научный фонд выявил ключевые проблемы, связанные с проблемами вычислений с интенсивным использованием данных, такими как абстракции программирования, включая модели, языки и алгоритмы, которые позволяют естественным образом выражать параллельную обработку данных.[8] Для этого класса проблем хорошо подходят декларативные языки программирования, ориентированные на данные.

Языки программирования, ориентированные на данные, обеспечивают подход к обработке, при котором приложения выражаются в терминах высокоуровневых операций с данными, а система времени выполнения прозрачно контролирует планирование, выполнение, балансировку нагрузки, обмен данными и перемещение программ и данных по вычислительному кластеру. .[9] Абстракция программирования и языковые инструменты позволяют выражать обработку в терминах потоков данных и преобразований, включая общие библиотеки общих алгоритмов манипулирования данными, таких как сортировка.

Декларативные языки программирования, ориентированные на данные, по своей сути могут быть адаптированы к различным формам распределенных вычислений, включая кластеры, гриды данных и облачные вычисления.[10] Использование декларативных языков программирования, ориентированных на данные, предлагает больше, чем просто адаптацию к новым вычислительным возможностям, это также предлагает изменения в мыслительном процессе анализа данных и проектирования приложений.[11]

Примеры языков, ориентированных на данные

SQL является наиболее известным декларативным языком программирования, ориентированным на данные, который используется с 1980-х годов и стал фактическим стандартом для использования с реляционными базами данных. Однако было реализовано множество новых системных архитектур и связанных языков программирования для вычисления с интенсивным использованием данных, Приложения для больших данных и приложения для крупномасштабного анализа данных. Большая часть роста данных связана с данными в неструктурированной форме[12] потребовались новые парадигмы обработки с более гибкими моделями данных. Появилось несколько решений, включая архитектуру MapReduce, впервые разработанную Google и теперь доступную в реализации с открытым исходным кодом под названием Hadoop, используемую Yahoo, Facebook и другими компаниями, а также архитектуру системы HPCC, предлагаемую LexisNexis Risk Solutions.

Hadoop Свинья

Рисунок 1: Пример программы Pig Latin [13]
Рисунок 2: Перевод программы Pig в MapReduce[13]

Hadoop - это проект программного обеспечения с открытым исходным кодом, спонсируемый The Apache Software Foundation (http://www.apache.org ), который реализует архитектуру MapReduce. Среда выполнения Hadoop поддерживает дополнительные возможности распределенной обработки данных, которые предназначены для работы с использованием архитектуры Hadoop MapReduce. К ним относятся Pig - высокоуровневый язык программирования потоков данных и среда выполнения для вычислений с интенсивным использованием данных. Pig был разработан Yahoo! для обеспечения специфической языковой нотации, ориентированной на данные, для приложений анализа данных, а также для повышения производительности программистов и сокращения циклов разработки при использовании среды Hadoop MapReduce. Программы Pig автоматически преобразуются в последовательности программ MapReduce, если это необходимо в среде выполнения. Pig предоставляет возможности языка для загрузки, хранения, фильтрации, группировки, исключения дубликатов, упорядочивания, сортировки, агрегации и объединения данных.[13] На рисунке 1 показан пример программы Pig, а на рисунке 2 показано, как это преобразовано в серию операций MapReduce.

ECL HPCC

Рисунок 3: Пример синтаксиса ECL для операции JOIN

Платформа HPCC для интенсивных вычислений данных от LexisNexis Risk Solutions включает новый декларативный язык программирования высокого уровня, ориентированный на данные, который называется ECL. ECL позволяет программисту определять, каким должен быть результат обработки данных, а также потоки данных и преобразования, необходимые для достижения результата. Язык ECL включает обширные возможности для определения данных, фильтрации, управления данными и преобразования данных, а также предоставляет обширный набор встроенных функций для работы с записями в наборах данных, которые могут включать определяемые пользователем функции преобразования. Программы ECL компилируются в оптимизированный исходный код C ++, который впоследствии компилируется в исполняемый код и распространяется по узлам обрабатывающего кластера. ECL сочетает в себе представление данных с реализацией алгоритма и представляет собой сплав языка запросов и языка параллельной обработки данных.

Рисунок 5: Пример кода ECL для NLP
Рисунок 4: Пример кода ECL

ECL включает встроенные операции преобразования данных, которые обрабатывают все наборы данных, включая PROJECT, ITERATE, ROLLUP, JOIN, COMBINE, FETCH, NORMALIZE, DENORMALIZE и PROCESS. Например, функция преобразования, определенная для операции JOIN, получает две записи, по одной из каждого присоединяемого набора данных, и может выполнять любые операции с полями в паре записей и возвращает выходную запись, которая может полностью отличаться от любой из входные записи. Пример синтаксиса операции JOIN из Справочного руководства по языку ECL показан на рисунке 3. На рисунке 4 показан пример эквивалентного кода ECL для примера программы Pig, показанного на рисунке 1.

Язык программирования ECL также предоставляет встроенные примитивы для Обработка естественного языка (NLP) с операторами PATTERN и встроенной операцией PARSE. Операторы PATTERN позволяют определять сопоставление шаблонов, включая регулярные выражения, и использовать их для анализа информации из неструктурированных данных, таких как необработанный текст. Операторы PATTERN могут быть объединены для реализации сложных операций синтаксического анализа или полных грамматик из Форма Бэкуса – Наура (BNF) определения. Операция PARSE работает с набором данных записей в определенном поле в записи, например, это поле может быть целой строкой в ​​текстовом файле. Используя эту возможность языка ECL, можно реализовать параллельную обработку формы извлечение информации приложений для файлов документов и всех типов неструктурированных и полуструктурированных данных, включая документы на основе XML или веб-страницы. На рисунке 5 показан пример кода ECL, используемого в приложении для анализа журналов, которое включает в себя NLP.

Смотрите также

Рекомендации

  1. ^ Справочник по облачным вычислениям, "Технологии обработки данных для облачных вычислений" А. М. Миддлтона. Справочник по облачным вычислениям. Спрингер, 2010.
  2. ^ "Есть данные? Руководство по сохранению данных в век информации "Ф. Берман. Сообщения ACM, Том 51, № 12, 2008 г., стр. 50–66.
  3. ^ Гамбит, ориентированный на данные, Дж. Хеллерстайн, 2008.
  4. ^ «Методология проектирования для приложений с параллельными данными» Л. С. Найланда, Дж. Ф. Принса, А. Голдберга и П. Х. Миллса. Справочник по облачным вычислениям. Спрингер, 2010.
  5. ^ "Терашкальный вызов "Д. Равичандран, П. Пантел и Э. Хови. Труды семинара KDD по майнингу для и из семантической сети, 2004.
  6. ^ "BOOM: Data-Centric Programming в центре обработки данных "П. Альваро, Т. Конди, Н. Конвей, К. Элмелиджи, Дж. Хеллерштейн и Р. Сирс. Департамент электротехники и компьютерных наук Калифорнийского университета в Беркли, Технический отчет, 2009.
  7. ^ "Обработка данных в 21 веке "Авторы: И. Гортон, П. Гринфилд, А. Салай и Р. Уильямс. Компьютер IEEE, том 41, № 4, 2008 г., стр. 30–32.
  8. ^ Вычисления с интенсивным использованием данных, NSF, 2009.
  9. ^ Масштабируемые вычисления с интенсивным использованием данных, Р. Э. Брайанта, 2008.
  10. ^ Bamboo: ориентированный на данные, объектно-ориентированный подход к многоядерному ПО, Дж. Чжоу и Б. Демского. Разработка и реализация языков программирования, 2010.
  11. ^ "Data-Centric Computing с архитектурой Netezza "Дж. С. Дэвисон, К. В. Бояк, Р. А. Захарски, С. К. Хельмрайх и Дж. Р. Коуи. Сандийские национальные лаборатории, Технический отчет, 2006.
  12. ^ «Расширяющаяся цифровая вселенная» Дж. Ф. Ганца, Д. Рейнселя, Ч. Чута, В. Шлихтинга, Дж. Макартура, С. Минтона, Дж. Ксенети, А. Тончева и А. Манфредиза. IDC, Белая книга, 2007.
  13. ^ а б c Свиной латынь: не такой иностранный язык для обработки данных В архиве 2011-07-20 на Wayback Machine Авторы: К. Олстон, Б. Рид, У. Шривастава, Р. Кумар и А. Томкинс. Стэнфордский университет, 2008 г.