Хранилища данных - статьи

       

Интеграция корпоративной информации: новое направление


Подготовлено по материалам зарубежных сайтов
Перевод:

1 Март 2005 г

Совсем недавно появился новый тип интеграции - интеграция корпоративной информации (Enterprise information integration, сокр. EII). Как считает ряд аналитиков, EII - это отдельный и особый вид интеграции, если его сравнивать с интеграцией приложений. Разумеется, может возникнуть вопрос: так ли это, и какое место в этом случае занимает интеграция данных? Чем они отличаются друг от друга и отличаются ли? Попробуем разобраться с этими и другими вопросами, а помочь нам в этом попросим экспертов в данной области - предлагаемая вниманию читателя статья является обзором публикаций по данной теме (см. ниже раздел "").

Прежде всего, необходимо дать определение интеграции корпоративной информации. По словам председателя комитета по интеграции корпоративной информации Консорциума по интеграции Джона Тейлора (John Taylor), EII - это интеграция данных из многочисленных систем в унифицированное, согласованное и точное представление, которое предназначено для изучения и обработки данных. Данные, представляемые пользователю, агрегируются и реструктурируются и, если необходимо, снабжаются новыми метками. Мы вернемся к этому определению немного позже, а пока рассмотрим другие типы интеграции и то, как они соотносятся с определением Джона Тейлора.

Ни для кого не секрет, что концепция интеграции данных существует уже давно. Интеграция данных - это извлечение, преобразование и загрузка (extraction, transformation, loading, сокр. ETL) данных из различных систем в единый склад данных, предназначенный для обработки и анализа (подготовки отчетности). Хранилища и витрины данных являются такими складами данных, а инструменты ETL - это компоненты "интеграции данных".

Необходимым условием осуществления такой интеграции является проведение досконального анализа, во-первых, задействованных систем и данных с целью определения релевантных данных, подлежащих процедурам извлечения и преобразования с последующей обязательной "очисткой" этих данных, а, во-вторых, целевых структур, в которые будут загружаться эти данные.




Подготовка отчетности осуществляется с помощью аналитических средств, которые позволяют каждый раз по-новому взглянуть на собранные данные, т.е. помогают создавать информацию, необходимую для принятия решений.

Очевидно, что данный вид интеграции необходим, но не это ли интеграция информации? Джон Тейлор придерживается противоположенной точки зрения - интеграция данных в первую очередь задействована в обработке и анализе исторических данных с целью определения тенденций, которые не могут быть установлены каким-либо иным способом, или используется для поддержки запросов "что-если" - для этого изменяется ряд величин для прогнозирования пока неизвестных возможностей. Это очень важный тип интеграции, ориентированный в основном на лиц, ответственных за принятие решений.

Интеграция приложений, с другой стороны, сфокусирована на интеграции данных различных приложений или систем. Как только данные в одной системе изменяются, это изменение передается в другие рассматриваемые системы - обычно посредством асинхронной передачи сообщений. Несколько лет назад появился термин EAI (интеграция корпоративных приложений), обозначающий интеграционную платформу, состоящую из системы передачи сообщений, брокера для маршрутизации и трансформации, а также набора адаптеров, которые упрощают взаимодействие с приложениями и данными из различных систем.

Интеграция корпоративных приложений актуальна и по сей день, и особенно для корпоративных пользователей. Дело в том, что для большинства организаций поддержание в синхронизованном состоянии данных из множества гетерогенных систем по-прежнему является серьезной задачей. Именно поэтому EAI и остается важнейшим типом интеграции. Но не интеграция информации ли это? И снова Джон Тейлор дает отрицательный ответ - интеграция приложений, хотя и необходимая для осуществления бизнес-функций, в основном является уделом корпоративных IT-отделов, обязанностью которых является поддержание этих различных корпоративных систем в согласованном друг с другом состоянии.



Итак, как отмечалось выше, под интеграцией информации понимается интеграция данных, находящихся во многочисленных системах, и их представление в унифицированном, согласованном и точном виде, которое предназначено для изучения и обработки данных. Такая интеграция предназначена исключительно для конечных пользователей, которым для выполнения поставленных перед ними задач необходимо работать со многочисленными системами.

При получении унифицированного представления данных, используемых в различных системах, следует учитывать уникальный набор требований и ограничений. Во-первых, данные должны быть доступны в "реальном времени", т.е. речь идет об обращении к системе напрямую, а не к устаревшим данным из ранее полученной выборки. Во-вторых, семантика, или значение, данных должно быть определено в системах - это согласованность, о которой упоминалось выше. В зависимости от системы данные могут представляться в разных форматах и с различными метками, которые наиболее уместны с точки зрения их использования, и поэтому для того, чтобы данные были пригодны, пользователю придется их соотносить. Таким образом, дублирующиеся данные должны быть удалены, достоверность данных должна быть проверена, метки приведены в соответствие, а значения переформатированы и т.д. - все это обычно выполняется при первой необходимости вручную конечным пользователем.


Различные типы интеграций

Как отмечает Тим Мэттьюс (Tim Matthews), автор многочисленных публикаций на ресурсах XML Journal, DevX, и Tech Target, технология EII использует распределенный запрос для сбора и интеграции информации из различных источников. Обычно такой запрос называют объединенным, или федеративным (federated). В этом случае запросы распределяются по источникам данных, а затем результаты их выполнения присоединяются другу к другу или объединяются. Продолжая сопоставление EII с другими интеграционными технологиями, Тим Мэттьюс подчеркивает, что EII несколько отличается от других подходов. Так, EAI обычно передает сообщения от одного приложения к другому по концентратору (hub) или шине (bus).


ETL использует физическое перемещение данных из одного местоположения в другое, создавая при этом в складах данных избыточные копии данных. Как правило, эти копируемые данные являются итоговыми данными и в этом случае детальные данные не доступны. В своей основе и EAI, и ETL - это технологии активной доставки, или "проталкивая" (push). EII же является технологией извлечения ("вытягивания") информации (pull), при которой объединенный запрос находит данные, необходимые для пользовательского приложения, и вставляет их в представление с пользовательским контекстом.

Каким образом достигается интеграция информации? По мнению Джона Тейлора, она начинается с сервисно-ориентированной архитектуры (service-oriented architecture, сокр. SOA). Благодаря этому обеспечивается универсальный механизм доступа ко всем системам посредством Web-сервисов, а также универсальное представление данных в формате XML. Это также позволяет обращаться не только к данным, "удобно" хранящимся в базах данных, но и в коммерческих и заказных приложениях, Web-контенте, документах, рисунках, и пр. Использование SOA в качестве основы поддерживает интеграцию и раскрытие информации из структурированных, транзакционных систем, а также из неструктурированных, основанных на контенте систем.

По словам эксперта портала Бесс Голд-Бернштейн (Beth Gold-Bernstein), EII создает слой абстракции между приложениями, которые запрашивают информацию, и исходными системами. Этот слой абстракции исключительно важен для SOA. Он позволяет представить доступ к данным в виде управляемого сервиса. Таки образом, EII минимизирует влияние изменений на исходные системы и, следовательно, максимизирует "активность" бизнеса. Доступ к различным наборам агрегированных данных может быть представлен как сервис в SOA.

Бесс Голд-Бернштейн согласна с Джоном Тейлорjv и Тимом Мэттьюсом, полагая, что технология EII значительно отличается от других типов интеграции. Возможность агрегировать данные из различных прикладных систем в реальном времени требует специализированной технологии, включая кэширование, индексацию и/или оптимизацию распределенных запросов, которые не применяются в других интеграционных решениях.Ни интеграция корпоративных приложений, ни управление бизнес-процессами не позволяют агрегировать распределенные источники данных как единую базу данных или создавать различные виртуальные представления. Однако такая возможность - исключительно полезный и необходимый сервис для всех стилей интеграции, включая компонентные приложения (composite application) и SOA. И поэтому, хотя некоторые аналитики пока не признают EII в качестве уникального класса интеграции, ей определенно предназначено стать более важным компонентом архитектуры корпоративной интеграции.


Содержание раздела