Подготовлено по материалам зарубежных сайтов
Перевод:
1 Март 2005 г
Совсем недавно появился новый тип интеграции - интеграция корпоративной информации (Enterprise information integration, сокр. EII). Как считает ряд аналитиков, EII - это отдельный и особый вид интеграции, если его сравнивать с интеграцией приложений. Разумеется, может возникнуть вопрос: так ли это, и какое место в этом случае занимает интеграция данных? Чем они отличаются друг от друга и отличаются ли? Попробуем разобраться с этими и другими вопросами, а помочь нам в этом попросим экспертов в данной области - предлагаемая вниманию читателя статья является обзором публикаций по данной теме (см. ниже раздел "").
Прежде всего, необходимо дать определение интеграции корпоративной информации. По словам председателя комитета по интеграции корпоративной информации Консорциума по интеграции Джона Тейлора (John Taylor), EII - это интеграция данных из многочисленных систем в унифицированное, согласованное и точное представление, которое предназначено для изучения и обработки данных. Данные, представляемые пользователю, агрегируются и реструктурируются и, если необходимо, снабжаются новыми метками. Мы вернемся к этому определению немного позже, а пока рассмотрим другие типы интеграции и то, как они соотносятся с определением Джона Тейлора.
Ни для кого не секрет, что концепция интеграции данных существует уже давно. Интеграция данных - это извлечение, преобразование и загрузка (extraction, transformation, loading, сокр. ETL) данных из различных систем в единый склад данных, предназначенный для обработки и анализа (подготовки отчетности). Хранилища и витрины данных являются такими складами данных, а инструменты ETL - это компоненты "интеграции данных".
Необходимым условием осуществления такой интеграции является проведение досконального анализа, во-первых, задействованных систем и данных с целью определения релевантных данных, подлежащих процедурам извлечения и преобразования с последующей обязательной "очисткой" этих данных, а, во-вторых, целевых структур, в которые будут загружаться эти данные.
Подготовка отчетности осуществляется с помощью аналитических средств, которые позволяют каждый раз по-новому взглянуть на собранные данные, т.е. помогают создавать информацию, необходимую для принятия решений.
Очевидно, что данный вид интеграции необходим, но не это ли интеграция информации? Джон Тейлор придерживается противоположенной точки зрения - интеграция данных в первую очередь задействована в обработке и анализе исторических данных с целью определения тенденций, которые не могут быть установлены каким-либо иным способом, или используется для поддержки запросов "что-если" - для этого изменяется ряд величин для прогнозирования пока неизвестных возможностей. Это очень важный тип интеграции, ориентированный в основном на лиц, ответственных за принятие решений.
Интеграция приложений, с другой стороны, сфокусирована на интеграции данных различных приложений или систем. Как только данные в одной системе изменяются, это изменение передается в другие рассматриваемые системы - обычно посредством асинхронной передачи сообщений. Несколько лет назад появился термин EAI (интеграция корпоративных приложений), обозначающий интеграционную платформу, состоящую из системы передачи сообщений, брокера для маршрутизации и трансформации, а также набора адаптеров, которые упрощают взаимодействие с приложениями и данными из различных систем.
Интеграция корпоративных приложений актуальна и по сей день, и особенно для корпоративных пользователей. Дело в том, что для большинства организаций поддержание в синхронизованном состоянии данных из множества гетерогенных систем по-прежнему является серьезной задачей. Именно поэтому EAI и остается важнейшим типом интеграции. Но не интеграция информации ли это? И снова Джон Тейлор дает отрицательный ответ - интеграция приложений, хотя и необходимая для осуществления бизнес-функций, в основном является уделом корпоративных IT-отделов, обязанностью которых является поддержание этих различных корпоративных систем в согласованном друг с другом состоянии.
Итак, как отмечалось выше, под интеграцией информации понимается интеграция данных, находящихся во многочисленных системах, и их представление в унифицированном, согласованном и точном виде, которое предназначено для изучения и обработки данных. Такая интеграция предназначена исключительно для конечных пользователей, которым для выполнения поставленных перед ними задач необходимо работать со многочисленными системами.
При получении унифицированного представления данных, используемых в различных системах, следует учитывать уникальный набор требований и ограничений. Во-первых, данные должны быть доступны в "реальном времени", т.е. речь идет об обращении к системе напрямую, а не к устаревшим данным из ранее полученной выборки. Во-вторых, семантика, или значение, данных должно быть определено в системах - это согласованность, о которой упоминалось выше. В зависимости от системы данные могут представляться в разных форматах и с различными метками, которые наиболее уместны с точки зрения их использования, и поэтому для того, чтобы данные были пригодны, пользователю придется их соотносить. Таким образом, дублирующиеся данные должны быть удалены, достоверность данных должна быть проверена, метки приведены в соответствие, а значения переформатированы и т.д. - все это обычно выполняется при первой необходимости вручную конечным пользователем.