Платформы Big Data: Microsoft

Данная статья посвящена платформе работы с Большими Данными от Microsoft. Я писал её почти год назад, но, как мне кажется, её актуальность не потеряна и сейчас. В ней рассматриваются различные аспекты работы с данными, которые актуальны для различных платформ. В дальнейшем попробуем посмотреть на работу с данными под другими углами.

Вводная

С определением того, что такое Big Data, вроде бы всё понятно. Для меня это такой buzzword, которым обозначают новые подходы к сбору, хранению и, самое главное, анализу данных. Пожалуй, все уже знают, что Большие Данные – это данные, у которых есть три характеристики роста. Три V:

  • Volume – объём;
  • Variety — разнообразие;
  • Velocity — скорость.

Эти три фактора приводят к тому, что мы копим колоссальные объёмы данных (ну а чего не хранить, если есть возможность), которые могут быть в различных форматах, как традиционных структурированных, так и в неструкутрированных (точнее слабоструктурированных или с часто изменяющейся структурой). При этом источники данных могут быть совершенно разными, например, различные логи, веб-формы, показатели счётчиков, датчиков и т.д. При этом, как заметил CTO Teradata Stephen Brobst рассуждая о причинах провала проектов по Big Data, существует ещё одно V – Value, то есть ценность проекта и данных для бизнеса.

Так как данных много, их полезность может быть не сразу очевидна. Поэтому на рынке стали появляться интегрированные платформы работы с Большими Данными. Рассмотрим платформу Microsoft, которая позволяет интегрировать как традиционные реляционные данные, которые могут быть расположены в реляционном хранилище, так и современные хранилища неструктурированных данных. При этом рассмотрим три основных направления при работе с данными вообще и «Большими данными» в частности. Это поиск данных (типы и источники данных в современном мире могут быть очень разнообразны), анализ найденных данных и визуализация. А начнём именно с визуализации.

История визуализации данных

Окунёмся в историю и поговорим про визуализацию данных. Для этого перенесемся в Лондон 1850 год. В то время бытовало мнение, что холера распространяется по воздуху с вредными испарениями[1]. Микробы были неизвестны.

Джон Сноу один из местных врачей, который расходился с принятым в то время мнением, что холера распространяется воздушным путем. Он считал, что она передается с водой. Сноу предположил, что холера распространяется через зараженную воду.

В 1854 году во время вспышки холеры в лондонском квартале Сохо Джон Сноу занялся сбором данных и составлением карты Лондона. Он отмечал на ней место каждого смертного случая, пытаясь обнаружить некую закономерность. Места смертных случаев показаны в оранжевом круге в виде небольших отметок.

Большое количество смертей наблюдалось около водяного насоса на улице Broad Street. Но на карте отмечены также и смертные случаи поблизости от других водяных насосов. Однако на местной пивоварне, расположенной рядом с насосом на улице Broad Street, наблюдалась аномалия. Ни один из работников пивоварни не заболел. Эти искаженные данные опровергали гипотезу Джона Сноу, ставили ее под сомнение

Второе действующее лицо в этой истории — преподобный Генри Уйатхед. Он знал о том, кто пользуется насосом на улице Broad Street — его церковь располагалась поблизости и он мог наблюдать за местными жителями. Генри Уайтхед сообщил Джону ряд важных сведений:

  • жители других районов брали воду из насоса на улице Broad Street, после того как отводили детей в школу, расположенную поблизости;
  • на пивоварне был собственный источник воды и к тому же ее работники имели привычку пить пиво вместо воды.

bd1Получив эту информацию, Сноу отправился к властям с утверждением, что причиной вспышки холеры, стал насос на улице Broad Street. Власти сняли с насоса ручку, чтобы жители не брали больше из него воду. Так удалось справиться с распространением холеры. Вода в насосе оказалась загрязненной сточными водами из соседней канализационной ямы.

В 1854 году на обнаружение причины ушло 10 дней, и за это время от болезни скончались 616 человек. Но были спасены тысячи. Сноу не только составил карту, используя универсальный процесс сбора данных, но и трансформировал необработанные данные в знания и действия.

Так мы видим, что уже полтора века назад визуализация данных давала ключ к принятию эффективных решений.

Современные аспекты работы с данными

К 2014 году этот универсальный процесс не претерпел никаких изменений:

  • Всё начинается с вопроса или проблемы. Иногда мы даже не знаем, что спросить.
  • В случае с Джоном Сноу данные дали ему ФАКТЫ, и затем был получен практический ответ, как действовать.
  • Рассмотрим процесс подробнее.
  • Сначала ставится вопрос. Например, вопрос о причине вспышки.
  • Далее мы собираем данные, находим и объединяем их — сбор данных о местах смертных случаев и нанесение точек на карту.
  • Изучение данных, создание модели, визуализация, уточнение. Джон Сноу сделал именно это, получив от преподобного Генри Уайтхеда сведения об искаженных данных, например об аномалии на пивоварне.
  • На основе полученных результатов мы предпринимаем действия, и используем новые знания. Джон Сноу снял ручку насоса на улице Broad Street.

Мы рассмотрели историю из середины XIX века. Количество данных, которые нужно было обработать д-ру Сноу, поместилось бы в обычную записную книжку.

Перед нами же стоят другие проблемы: данные создаются быстрее — в реальном времени. Нам приходится управлять различными типами данных. Это не просто классические структурированные данные. Сегодня мы работаем с самыми разными типами данных.

Благодаря действию рыночных факторов (появление облачных технологий и удешевление оборудования) мы справляемся с этой проблемой. Благодаря этому мы можем сохранять значительно большие объемы информации и использовать их для принятия более обоснованных решений.

Добавьте сюда пользователей, которые требуют, чтобы ИТ-отделы предоставляли им аналитику по всем имеющимся данным. Пользователи хотят получать ответы на актуальные вопросы так же легко, как они делают поиск в Интернете. Можно с уверенностью сказать, что ИТ-отделы, смогут предоставить пользователям такую возможность совсем скоро.

Microsoft стремится упростить мир данных. Компания предлагает решения для анализа огромных массивов информации, которые дают возможность не только специалистам, но и пользователям — от менеджеров по маркетингу до ИТ-профессионалов — отыскать в этом потоке ценные знания.

На первом этапе процесса обработки данных, залог успеха лежит в обеспечении ПРОСТОГО доступа к большим и малым данным для принятия оптимальных бизнес-решений. Речь идет о доступе не только специалистов ИТ-отдела, но и конечных пользователей.

На втором этапе, необходимо упростить для людей, связанных с БИЗНЕСОМ, задачу создания теории, ее моделирования, уточнения и получения ценных для бизнеса знаний. Необходимо привлечь большое количество людей, тесно связанных с основной деятельностью организации, вооружить их эффективными, хорошо знакомыми инструментами, использованию которых не нужно учиться. И если это удастся, организация получает возможность увидеть четкую картину состояния дел.

На последнем этапе необходимо создать повторяемый бизнес-процесс для автоматической доставки этих полезных. Мы не имеем в виду обычное сохранение реляционных или неструктурированных. Здесь следует думать о более комплексном решении. Любой организации хочется повысить рентабельность инвестиций в данные; использование же процесса исследования данных сразу даст желаемые результаты.

ПОИСК, ОБЪЕДИНЕНИЕ и УПРАВЛЕНИЕ

Для иллюстрации первого этапа обработки данных, обратимся к примеру обработки больших данных. Данное решение облегчает жизнь специалистам по маркетингу (не только аналитикам), открывая им доступ к данным и давая возможность работать с ними на первом этапе жизненного цикла.

Это история успеха Halo 4. Франшиза Halo — уникальный феномен в сфере развлечений. На сегодняшний день в мире продано более 50 миллионов копий видеоигр Halo.

Halo 4 — это не просто игра для приставки Xbox. Это облачная служба: сторонние компании используют Halo для организации турниров в рамках запуска новых продуктов. Победители турниров получают крупные призы. У одной из компаний, проводивших турнир с Halo, возникло подозрение, что игроки мошенничают. Компания обратилась к разработчикам со своими опасениями. Проанализировав ситуацию, команда Halo пришла к выводу, что опасения обоснованы. Последним победителем в турнире оказался человек с достаточно низким рейтингом Halo в ежедневной игре. И тем не менее ему удалось выиграть у более сильных игроков.

Данные, касающиеся Halo, поместили в Windows Azure и начали выполнять задания MapReduce, используя нашу новую службу Windows Azure HDInsight. Члены команды обнаружили, что указанные игроки предпринимали хакерские атаки. Одна из самых популярных хакерских атак получила название Headless Spartan. В результате игрокам удавалось снимать голову со своих героев — по безголовым фигурам очень трудно стрелять и выводить их из игры.

Менеджеры по маркетингу поместили данные в таблицу Excel. В итоге появилась возможность ежедневно просматривать таблицу и выявлять случаи мошенничества, а также анализировать данные игрока и при необходимости принимать решение об улучшении игры.

Таким образом, люди, непосредственно контактирующие с пользователями Halo, смогли найти нужную информацию, получить к ней доступ и объединить данные для корректировки игры по мере необходимости. Анализ большого количества неструктурированных данных с последующим размещением результатов в таблице Excel оказался очень мощным инструментом, объединяющим первый и второй этапы процесса обработки данных.

Давайте сделаем обзор того, какие возможности предлагает Microsoft на первом этапе процесса обработки данных.

Один из компонентов для решения задачи первого этапа — Обозреватель данных (Data Explorer), выпущенный в виде дополнения для Excel. Обозреватель данных позволяет искать внутренние и внешние данные с помощью Excel. Это эффективный инструмент, который дает пользователям возможность находить данные, необходимые для анализа.

Поиск нужных данных для решения проблемы или получения ответа на важный вопрос — одна из самых сложных задач в любом проекте анализа данных. Здесь речь идет о внутренних и внешних данных.

Сегодня необходимо объединять структурированные данные с неструктурированными данными, управляемыми или обрабатываемыми в кластере Hadoop. Мы заключили партнерское соглашение с компанией Hortonworks, которое гарантирует стопроцентную совместимость наших версий Hadoop с Apache в будущем.

Кроме того, мы недавно обновили службы Windows Azure, и теперь всего за несколько щелчков можно начать работу в Hadoop (Служба Windows Azure HDInsight).

SQL Server зарекомендовал себя как мощное средство управления данными. Сегодня требуется управлять данными как из реляционных, так и из нереляционных хранилищ. Возникла необходимость в платформе управления информацией, поддерживающей ВСЕ типы данных. Такая платформа данных должна быстро переводить данные из одного формата в другой, отслеживать данные и управлять ими независимо от типа или структуры.

С этой целью мы предложили несколько новых технологий (PolyBase), объединенных в SQL Server Parallel Data Warehouse. Этот программно-аппаратный комплекс позволяет быстро и легко запрашивать структурированные и неструктурированные данные.

РАЗРАБОТКА ТЕОРИЙ, АНАЛИЗ + УТОЧНЕНИЕ

Рассмотрим второй этап процесса обработки данных, на котором происходит разработка теорий, создание моделей данных, а также их анализ и уточнение.

Great Western Bank, дочерний банк Национального банка Австралии, предлагает банковские услуги, кредиты и обслуживание кредитных карт. Банк входит в число ста крупнейших банков США.

Банк развивался быстрыми темпами, стали ощущаться недостатки системы управления данными, которая сохраняла данные в виде электронных таблиц. Пользователи испытывали трудности при работе с инструментами отчетности и неделями ожидали помощи от службы поддержки. В результате у сотрудников банка возникали затруднения с перекрестными продажами дополнительных услуг и выявлением неудовлетворенных клиентов.

Банк имел дело с масштабными данными, которые нужно было передать в руки конечных пользователей, понимали потребности бизнеса. В банке модернизировали подход к хранилищам данных и перешли к модели бизнес-аналитики по принципу самообслуживания. В результате сотрудники, принимающие бизнес-решения, получили возможность делать это на основе информации, получаемой в реальном времени. Требовалось определить, какие продукты или услуги можно продать клиентам впоследствии, или разработать маркетинговые программы для целевой группы клиентов. Предоставленная конечным пользователям и лицам, принимающим решения, возможность проводить анализ «что если» оказалась мощным инструментом.

Новое решение помогло ИТ-службе банка сохранить контроль над системой бизнес-аналитики и защитить критически важные инструменты, не ограничивая креативность пользователей.

Банкиры используют решение Power View для того, чтобы понять потребности клиентов, улучшить их обслуживание и обеспечить рентабельность на уровне клиентов.

 

КОНКРЕТНЫЕ ДЕЙСТВИЯ + ИСПОЛЬЗОВАНИЕ

Рассмотрим последний этап перехода от необработанных данных к знаниям. Снова пример с эпидемией в Великобритании. Однако теперь речь идет о совместном использовании технологий различными методами.

Ascribe — поставщик ПО в области здравоохранения в Великобритании. Компания создала инновационное решение, для идентифицкации эпидемии или вспышки болезней. Это — гибридное облачное решение со встроенными инструментами бизнес-аналитики (на основе Microsoft SQL Server, Windows Server, службы Windows Azure HDInsight и SharePoint), объединяющее данные различных типов с целью ранней идентификации вспышек инфекционных болезней и других угроз здоровью людей. Разработчики объединили традиционные источники данных с рукописными записями о состоянии пациента, которые заносятся в медицинские карты во время приема.

При вспышке менингита (исключительно опасного заболевания) пациенты посещают врача и тот ставит диагноз. Если диагноз подтверждается, то заносится в историю болезни и далее сохраняется в местной медицинской системе. История болезни сохраняется в SQL Server, и таким образом становится известно о реальном случае диагностированного менингита в конкретной больнице или месте.

Аналитики данных здравоохранения обычно работают именно с таким типом данных. Данные поступают после того, как пациенты приступают к лечению в клиниках. Однако к моменту получения аналитиками эта информация обычно устаревает. Данные кодируются и сохраняются в системе хранения историй болезни или извлекаются из рабочего процесса больницы, и это происходит не в режиме реального времени.

Аналитики получают старые данные и не имеют доступа к подробному описанию симптомов из рукописных записей, сделанных во время приема пациента. Ascribe ускорила прохождение потока данных, максимально приблизив его к реальному времени. Кроме того, закодированные клиниками данные дополнены сведениями из рукописных записей медицинских карт.

В Ascribe сканируют рукописные записи, помещают их в облако и используют обработку на естественном языке для организации этих данных. Данные снова попадают в систему и анализируются. В процессе анализа выясняется, повторяются ли симптомы, описанные врачом во время приема пациента, в период конкретной вспышки. Специалисты получают возможность выявлять проблемы из потока данных, который раньше был недоступен.

Решение также принимает во внимание информацию из социальных сетей и анализирует твиты и сообщения в Facebook. Такой анализ выявляет необычное количество людей в определенной местности, которые сообщают о своей болезни, недомогании или конкретных симптомах.

Врачи получили возможность переходить от сигнала оповещения на своих настольных компьютерах Windows 8 к карте в SQL Server 2012 Power View, на которой показано распространение эпидемии.

В отличие от 1854 года, когда на остановку вспышки холеры ушло 10 дней, сегодня благодаря компании Ascribe появилась возможность отслеживать вспышки в реальном времени и предотвращать распространение эпидемии.

Итак. На последнем, наиболее важном этапе необходимо развернуть процесс и обеспечить управление им с помощью комплексной платформы данных. Microsoft предлагает такую платформу, начиная от гибридных облачных решений Windows Azure, Windows Server, SQL Server и заканчивая интерфейсной частью Office. Все это мы делаем для того, чтобы предоставить возможности комплексной, согласованной, взаимосвязанной платформы данных, которая сокращает время получения ценных для бизнеса данных на КАЖДОМ этапе их жизненного цикла.

 

[1] http://en.wikipedia.org/wiki/Miasma_theory

Tagged with: , ,
Опубликовано в Big Data - Большие Данные, ИТ архитектура, Microsoft

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход /  Изменить )

Google photo

Для комментария используется ваша учётная запись Google. Выход /  Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход /  Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход /  Изменить )

Connecting to %s

%d такие блоггеры, как: