Платформы Big Data: Microsoft

Данная статья посвящена платформе работы с Большими Данными от Microsoft. Я писал её почти год назад, но, как мне кажется, её актуальность не потеряна и сейчас. В ней рассматриваются различные аспекты работы с данными, которые актуальны для различных платформ. В дальнейшем попробуем посмотреть на работу с данными под другими углами.

Вводная

С определением того, что такое Big Data, вроде бы всё понятно. Для меня это такой buzzword, которым обозначают новые подходы к сбору, хранению и, самое главное, анализу данных. Пожалуй, все уже знают, что Большие Данные – это данные, у которых есть три характеристики роста. Три V:

  • Volume – объём;
  • Variety — разнообразие;
  • Velocity — скорость.

Эти три фактора приводят к тому, что мы копим колоссальные объёмы данных (ну а чего не хранить, если есть возможность), которые могут быть в различных форматах, как традиционных структурированных, так и в неструкутрированных (точнее слабоструктурированных или с часто изменяющейся структурой). При этом источники данных могут быть совершенно разными, например, различные логи, веб-формы, показатели счётчиков, датчиков и т.д. При этом, как заметил CTO Teradata Stephen Brobst рассуждая о причинах провала проектов по Big Data, существует ещё одно V – Value, то есть ценность проекта и данных для бизнеса.

Так как данных много, их полезность может быть не сразу очевидна. Поэтому на рынке стали появляться интегрированные платформы работы с Большими Данными. Рассмотрим платформу Microsoft, которая позволяет интегрировать как традиционные реляционные данные, которые могут быть расположены в реляционном хранилище, так и современные хранилища неструктурированных данных. При этом рассмотрим три основных направления при работе с данными вообще и «Большими данными» в частности. Это поиск данных (типы и источники данных в современном мире могут быть очень разнообразны), анализ найденных данных и визуализация. А начнём именно с визуализации.

История визуализации данных

Окунёмся в историю и поговорим про визуализацию данных. Для этого перенесемся в Лондон 1850 год. В то время бытовало мнение, что холера распространяется по воздуху с вредными испарениями[1]. Микробы были неизвестны.

Джон Сноу один из местных врачей, который расходился с принятым в то время мнением, что холера распространяется воздушным путем. Он считал, что она передается с водой. Сноу предположил, что холера распространяется через зараженную воду.

В 1854 году во время вспышки холеры в лондонском квартале Сохо Джон Сноу занялся сбором данных и составлением карты Лондона. Он отмечал на ней место каждого смертного случая, пытаясь обнаружить некую закономерность. Места смертных случаев показаны в оранжевом круге в виде небольших отметок.

Большое количество смертей наблюдалось около водяного насоса на улице Broad Street. Но на карте отмечены также и смертные случаи поблизости от других водяных насосов. Однако на местной пивоварне, расположенной рядом с насосом на улице Broad Street, наблюдалась аномалия. Ни один из работников пивоварни не заболел. Эти искаженные данные опровергали гипотезу Джона Сноу, ставили ее под сомнение

Второе действующее лицо в этой истории — преподобный Генри Уйатхед. Он знал о том, кто пользуется насосом на улице Broad Street — его церковь располагалась поблизости и он мог наблюдать за местными жителями. Генри Уайтхед сообщил Джону ряд важных сведений:

  • жители других районов брали воду из насоса на улице Broad Street, после того как отводили детей в школу, расположенную поблизости;
  • на пивоварне был собственный источник воды и к тому же ее работники имели привычку пить пиво вместо воды.

bd1Получив эту информацию, Сноу отправился к властям с утверждением, что причиной вспышки холеры, стал насос на улице Broad Street. Власти сняли с насоса ручку, чтобы жители не брали больше из него воду. Так удалось справиться с распространением холеры. Вода в насосе оказалась загрязненной сточными водами из соседней канализационной ямы.

В 1854 году на обнаружение причины ушло 10 дней, и за это время от болезни скончались 616 человек. Но были спасены тысячи. Сноу не только составил карту, используя универсальный процесс сбора данных, но и трансформировал необработанные данные в знания и действия.

Так мы видим, что уже полтора века назад визуализация данных давала ключ к принятию эффективных решений.

Современные аспекты работы с данными

К 2014 году этот универсальный процесс не претерпел никаких изменений:

  • Всё начинается с вопроса или проблемы. Иногда мы даже не знаем, что спросить.
  • В случае с Джоном Сноу данные дали ему ФАКТЫ, и затем был получен практический ответ, как действовать.
  • Рассмотрим процесс подробнее.
  • Сначала ставится вопрос. Например, вопрос о причине вспышки.
  • Далее мы собираем данные, находим и объединяем их — сбор данных о местах смертных случаев и нанесение точек на карту.
  • Изучение данных, создание модели, визуализация, уточнение. Джон Сноу сделал именно это, получив от преподобного Генри Уайтхеда сведения об искаженных данных, например об аномалии на пивоварне.
  • На основе полученных результатов мы предпринимаем действия, и используем новые знания. Джон Сноу снял ручку насоса на улице Broad Street.

Мы рассмотрели историю из середины XIX века. Количество данных, которые нужно было обработать д-ру Сноу, поместилось бы в обычную записную книжку.

Перед нами же стоят другие проблемы: данные создаются быстрее — в реальном времени. Нам приходится управлять различными типами данных. Это не просто классические структурированные данные. Сегодня мы работаем с самыми разными типами данных.

Благодаря действию рыночных факторов (появление облачных технологий и удешевление оборудования) мы справляемся с этой проблемой. Благодаря этому мы можем сохранять значительно большие объемы информации и использовать их для принятия более обоснованных решений.

Добавьте сюда пользователей, которые требуют, чтобы ИТ-отделы предоставляли им аналитику по всем имеющимся данным. Пользователи хотят получать ответы на актуальные вопросы так же легко, как они делают поиск в Интернете. Можно с уверенностью сказать, что ИТ-отделы, смогут предоставить пользователям такую возможность совсем скоро.

Microsoft стремится упростить мир данных. Компания предлагает решения для анализа огромных массивов информации, которые дают возможность не только специалистам, но и пользователям — от менеджеров по маркетингу до ИТ-профессионалов — отыскать в этом потоке ценные знания.

На первом этапе процесса обработки данных, залог успеха лежит в обеспечении ПРОСТОГО доступа к большим и малым данным для принятия оптимальных бизнес-решений. Речь идет о доступе не только специалистов ИТ-отдела, но и конечных пользователей.

На втором этапе, необходимо упростить для людей, связанных с БИЗНЕСОМ, задачу создания теории, ее моделирования, уточнения и получения ценных для бизнеса знаний. Необходимо привлечь большое количество людей, тесно связанных с основной деятельностью организации, вооружить их эффективными, хорошо знакомыми инструментами, использованию которых не нужно учиться. И если это удастся, организация получает возможность увидеть четкую картину состояния дел.

На последнем этапе необходимо создать повторяемый бизнес-процесс для автоматической доставки этих полезных. Мы не имеем в виду обычное сохранение реляционных или неструктурированных. Здесь следует думать о более комплексном решении. Любой организации хочется повысить рентабельность инвестиций в данные; использование же процесса исследования данных сразу даст желаемые результаты.

ПОИСК, ОБЪЕДИНЕНИЕ и УПРАВЛЕНИЕ

Для иллюстрации первого этапа обработки данных, обратимся к примеру обработки больших данных. Данное решение облегчает жизнь специалистам по маркетингу (не только аналитикам), открывая им доступ к данным и давая возможность работать с ними на первом этапе жизненного цикла.

Это история успеха Halo 4. Франшиза Halo — уникальный феномен в сфере развлечений. На сегодняшний день в мире продано более 50 миллионов копий видеоигр Halo.

Halo 4 — это не просто игра для приставки Xbox. Это облачная служба: сторонние компании используют Halo для организации турниров в рамках запуска новых продуктов. Победители турниров получают крупные призы. У одной из компаний, проводивших турнир с Halo, возникло подозрение, что игроки мошенничают. Компания обратилась к разработчикам со своими опасениями. Проанализировав ситуацию, команда Halo пришла к выводу, что опасения обоснованы. Последним победителем в турнире оказался человек с достаточно низким рейтингом Halo в ежедневной игре. И тем не менее ему удалось выиграть у более сильных игроков.

Данные, касающиеся Halo, поместили в Windows Azure и начали выполнять задания MapReduce, используя нашу новую службу Windows Azure HDInsight. Члены команды обнаружили, что указанные игроки предпринимали хакерские атаки. Одна из самых популярных хакерских атак получила название Headless Spartan. В результате игрокам удавалось снимать голову со своих героев — по безголовым фигурам очень трудно стрелять и выводить их из игры.

Менеджеры по маркетингу поместили данные в таблицу Excel. В итоге появилась возможность ежедневно просматривать таблицу и выявлять случаи мошенничества, а также анализировать данные игрока и при необходимости принимать решение об улучшении игры.

Таким образом, люди, непосредственно контактирующие с пользователями Halo, смогли найти нужную информацию, получить к ней доступ и объединить данные для корректировки игры по мере необходимости. Анализ большого количества неструктурированных данных с последующим размещением результатов в таблице Excel оказался очень мощным инструментом, объединяющим первый и второй этапы процесса обработки данных.

Давайте сделаем обзор того, какие возможности предлагает Microsoft на первом этапе процесса обработки данных.

Один из компонентов для решения задачи первого этапа — Обозреватель данных (Data Explorer), выпущенный в виде дополнения для Excel. Обозреватель данных позволяет искать внутренние и внешние данные с помощью Excel. Это эффективный инструмент, который дает пользователям возможность находить данные, необходимые для анализа.

Поиск нужных данных для решения проблемы или получения ответа на важный вопрос — одна из самых сложных задач в любом проекте анализа данных. Здесь речь идет о внутренних и внешних данных.

Сегодня необходимо объединять структурированные данные с неструктурированными данными, управляемыми или обрабатываемыми в кластере Hadoop. Мы заключили партнерское соглашение с компанией Hortonworks, которое гарантирует стопроцентную совместимость наших версий Hadoop с Apache в будущем.

Кроме того, мы недавно обновили службы Windows Azure, и теперь всего за несколько щелчков можно начать работу в Hadoop (Служба Windows Azure HDInsight).

SQL Server зарекомендовал себя как мощное средство управления данными. Сегодня требуется управлять данными как из реляционных, так и из нереляционных хранилищ. Возникла необходимость в платформе управления информацией, поддерживающей ВСЕ типы данных. Такая платформа данных должна быстро переводить данные из одного формата в другой, отслеживать данные и управлять ими независимо от типа или структуры.

С этой целью мы предложили несколько новых технологий (PolyBase), объединенных в SQL Server Parallel Data Warehouse. Этот программно-аппаратный комплекс позволяет быстро и легко запрашивать структурированные и неструктурированные данные.

РАЗРАБОТКА ТЕОРИЙ, АНАЛИЗ + УТОЧНЕНИЕ

Рассмотрим второй этап процесса обработки данных, на котором происходит разработка теорий, создание моделей данных, а также их анализ и уточнение.

Great Western Bank, дочерний банк Национального банка Австралии, предлагает банковские услуги, кредиты и обслуживание кредитных карт. Банк входит в число ста крупнейших банков США.

Банк развивался быстрыми темпами, стали ощущаться недостатки системы управления данными, которая сохраняла данные в виде электронных таблиц. Пользователи испытывали трудности при работе с инструментами отчетности и неделями ожидали помощи от службы поддержки. В результате у сотрудников банка возникали затруднения с перекрестными продажами дополнительных услуг и выявлением неудовлетворенных клиентов.

Банк имел дело с масштабными данными, которые нужно было передать в руки конечных пользователей, понимали потребности бизнеса. В банке модернизировали подход к хранилищам данных и перешли к модели бизнес-аналитики по принципу самообслуживания. В результате сотрудники, принимающие бизнес-решения, получили возможность делать это на основе информации, получаемой в реальном времени. Требовалось определить, какие продукты или услуги можно продать клиентам впоследствии, или разработать маркетинговые программы для целевой группы клиентов. Предоставленная конечным пользователям и лицам, принимающим решения, возможность проводить анализ «что если» оказалась мощным инструментом.

Новое решение помогло ИТ-службе банка сохранить контроль над системой бизнес-аналитики и защитить критически важные инструменты, не ограничивая креативность пользователей.

Банкиры используют решение Power View для того, чтобы понять потребности клиентов, улучшить их обслуживание и обеспечить рентабельность на уровне клиентов.

 

КОНКРЕТНЫЕ ДЕЙСТВИЯ + ИСПОЛЬЗОВАНИЕ

Рассмотрим последний этап перехода от необработанных данных к знаниям. Снова пример с эпидемией в Великобритании. Однако теперь речь идет о совместном использовании технологий различными методами.

Ascribe — поставщик ПО в области здравоохранения в Великобритании. Компания создала инновационное решение, для идентифицкации эпидемии или вспышки болезней. Это — гибридное облачное решение со встроенными инструментами бизнес-аналитики (на основе Microsoft SQL Server, Windows Server, службы Windows Azure HDInsight и SharePoint), объединяющее данные различных типов с целью ранней идентификации вспышек инфекционных болезней и других угроз здоровью людей. Разработчики объединили традиционные источники данных с рукописными записями о состоянии пациента, которые заносятся в медицинские карты во время приема.

При вспышке менингита (исключительно опасного заболевания) пациенты посещают врача и тот ставит диагноз. Если диагноз подтверждается, то заносится в историю болезни и далее сохраняется в местной медицинской системе. История болезни сохраняется в SQL Server, и таким образом становится известно о реальном случае диагностированного менингита в конкретной больнице или месте.

Аналитики данных здравоохранения обычно работают именно с таким типом данных. Данные поступают после того, как пациенты приступают к лечению в клиниках. Однако к моменту получения аналитиками эта информация обычно устаревает. Данные кодируются и сохраняются в системе хранения историй болезни или извлекаются из рабочего процесса больницы, и это происходит не в режиме реального времени.

Аналитики получают старые данные и не имеют доступа к подробному описанию симптомов из рукописных записей, сделанных во время приема пациента. Ascribe ускорила прохождение потока данных, максимально приблизив его к реальному времени. Кроме того, закодированные клиниками данные дополнены сведениями из рукописных записей медицинских карт.

В Ascribe сканируют рукописные записи, помещают их в облако и используют обработку на естественном языке для организации этих данных. Данные снова попадают в систему и анализируются. В процессе анализа выясняется, повторяются ли симптомы, описанные врачом во время приема пациента, в период конкретной вспышки. Специалисты получают возможность выявлять проблемы из потока данных, который раньше был недоступен.

Решение также принимает во внимание информацию из социальных сетей и анализирует твиты и сообщения в Facebook. Такой анализ выявляет необычное количество людей в определенной местности, которые сообщают о своей болезни, недомогании или конкретных симптомах.

Врачи получили возможность переходить от сигнала оповещения на своих настольных компьютерах Windows 8 к карте в SQL Server 2012 Power View, на которой показано распространение эпидемии.

В отличие от 1854 года, когда на остановку вспышки холеры ушло 10 дней, сегодня благодаря компании Ascribe появилась возможность отслеживать вспышки в реальном времени и предотвращать распространение эпидемии.

Итак. На последнем, наиболее важном этапе необходимо развернуть процесс и обеспечить управление им с помощью комплексной платформы данных. Microsoft предлагает такую платформу, начиная от гибридных облачных решений Windows Azure, Windows Server, SQL Server и заканчивая интерфейсной частью Office. Все это мы делаем для того, чтобы предоставить возможности комплексной, согласованной, взаимосвязанной платформы данных, которая сокращает время получения ценных для бизнеса данных на КАЖДОМ этапе их жизненного цикла.

 

[1] http://en.wikipedia.org/wiki/Miasma_theory

Tagged with: , ,
Опубликовано в Big Data - Большие Данные, ИТ архитектура, Microsoft

Очередная попытка писать статьи сюда регулярно

Привет. Год прошёл с моего последнего поста сюда. За этот год в моей жизни произошли различные перемены. Я ушёл из Microsoft, нашёл новую работу в Brocade, поучаствовал в мероприятиях по большим данным, открыл для себя удивительный мир Ethernet и SDN/NFV. Теперь рассчитываю делиться своими открытиями с миром🙂.
А начну, пожалуй, с публикации статьи про платформу больших данных от Microsoft. Я готовил публикацию в начале года для одного из журналов, статья так и не была опубликована, но желание поделиться ею не пропало. Так что, в ближайшее время появится немного рекламная статья про Microsoft.

Ну а дальше…

Tagged with:
Опубликовано в Big Data - Большие Данные, О жизни

С наступающим или опять о Больших Данных

Привет. Канун Нового года — прекрасное время начать что-то новое, а ещё лучшее время возродить что-то старое. Вот я и решил как-то вернуть к жизни сей ресурс — itaas.ru.

Некоторое время назад казалось, что в IT отрасли какой-то застой, болото и ничего не происходит. Но с тех пор как я, по долгу службы, стал заниматься темой Big Data (по-русски «Большие Данные», но мне по душе именно английский термин), моё отношение к скуке стало меняться, что привело меня, в итоге, к «общественной нагрузке»🙂 в виде чемпионства по Big Data внутри Microsoft.

Теперь тут появилась категория статей про Big Data, где я буду стараться писать про интересные сценарии использования Больших Данных, про платформы работы с Большими Данными (хочу поковырять тему с Интернетом вещей, машинными данными) — в общем, буду ковыряться в том, что сейчас интересно.

Не оставлю без внимания и тему гаджетов — ну как можно писать про Большие Данные и не упомянуть про то, что их генерирует🙂 (Вот войду в нормальный режим использования и напишу про Lunia 1520)

В общем — с наступающим 2014 годом! Пусть лошадь ворвётся в нашу жизнь и помчит нас к новым свершениям!

Tagged with: , ,
Опубликовано в Big Data - Большие Данные, О жизни, IT as a Service

Новые материалы по SQL Server 2012

Давно не брал я в руки шашку не писал в этом блоге. А материалов, тем не менее, накопилось много, а мыслей ещё больше. Тем не менее, не так давно было окончательно объявлено, что в следующем году выходит новая версия SQL Server 2012 (ранее кодовое название Denali). Для себя я отмечаю среди новшеств и улучшений две основных темы:

  • отказоустойчивость (дурацкий русский термин, мне больше по душе английский High Availability) и масштабируемость (особенно с точки зрения интеграции Vertipaq в виде ColumnStore Index в решении для хранилищ данных).
  • Бизнес-аналитика (особенно проект, который носил название Crescent, демонстрации которого производят неизгладимое впечатление на пользователей).

На самом деле и про эти темы и про другие говорить можно долго, предлагаю начать знакомиться с гидом по продукту. Его можно скачать здесь. Потом нужно будет его распаковать и запустить скрипт STARTHERE.

Гид по продукту включает в себя ссылки на виртуальные лабы по SQL Server 2012 CTP3, не требующие установки, а также:

  • 32 новых технических презентации;
  • два кратких описания;
  • лабо по AlwaysOn (как раз на тему High Availability).

Скоро будут ещё новости, так что если вы разрабатываете и внедряете решения на SQL Server, то нужно готовиться.

Tagged with: , , ,
Опубликовано в IT бизнес-пользователю, Microsoft, SQL Server

Cooperative (Social) Intelligence

Наткнулся тут на книжку про Cooperative Intelligence, по содержанию-то она про организацию команд для достижения целей, но я вот думаю: если сюда прикрутить средства для коллективной работы, ресурсное планирование, инструменты BI, да коммуникации — это же хорошая тема может получиться для проектов.

Tagged with:
Опубликовано в DataWarehouse and BI

Очередное обсуждение НПП

Забавная дискуссионная панель на тему Национальной Программной Платформы (НПП). Главная мысль, которая у меня промелькнула – за баталиями вокруг создания национальной Открытой ОС и текстового редактора, не забыли бы про создание прикладных ИС для решения текущих задач информатизации ведомств. Хотя потом будет повод их переписать.

Tagged with:
Опубликовано в Open Source решения

VDI – как рассчитать нагрузку

VDI sizingПри выборе различных инфраструктурных решений встаёт вопрос корректного подбора оборудования, ПО под оборудование в зависимости от предполагаемых нагрузок (или сайзинга, от англ. sizing). Сегодня я публикую статью стороннего автора – Василия Луковникова. Василий разработал свой инструментарий и методику сайзинга. Внизу статьи есть контакты Василия.

Уверен, что другие инструменты также могут быть полезными, но и данная методика поможет тем, кто принял решение о внедрении VDI и хочет произвести тот самый сайзинг.

VDI Sizing

Что это?

Под VDI SIzing подразумевается как минимум две вещи:

— определение количества пользователей/сессий при помощи эмпирических соображений (например, не более 6-8-10 виртуальных машин на одно физическое ядро процессора) или VDI калькуляторов. в последнем случае предполагается, что известно среднее потребление ресурсов одной виртуальной машиной (CPU time, Memory, Disk IO, Network IO), соответственно, зная о доступных ресурсах сервера, можно прикинуть максимальное количество виртуальных машин, при котором эти ресурсы не заканчиваются.

— проведение непосредственно нагрузочного тестирования и измерение потребления ресурсов сервером, а также пользовательского user experience: как быстро он может совершать типичные действия (открытие и создание документов, создание RDP сессии и т.д.)

Сразу оговорюсь, что речь далее пойдет именно о нагрузочном тестировании.

Итак, зачем вообще нужен нагрузочное тестирование VDI?

— ну во-первых, самая очевидная цель — определение количества пользователей, которые могут работать одновременно с приемлемой скоростью

— сравнение различных гипервизоров. ну тут все понятно, т.к. плотность виртуальных машин напрямую влиет на стоимость решения "per user"

— сравнение нескольких версий гостевой ОС. Например, выходит новый service pack и необходимо понять сильно ли он повлияет на загрузку сервера. виртуальных машин-то десятки и даже незначительное увеличение потребления памяти в высокоплотном окружении заметно скажется на сервере

— сравнение версий MS Office. вообщем тоже, что и в пункте выше

— сравнение железа. здесь речь идет о подборе гармоничной конфигурации с точки зрения сразу цены/производительности (плотности виртуальных машин)

— стресс тестирование инфраструктуры. например, эмуляция начала рабочего дня, когда пользователи коннектятся одновременно и нагрузка на сервер резко возрастает

Чем и как тестировать?

Одной из первых утилит была Microsoft Terminal Services Scalability (tbscript.exe из Windows 2003 resource kit). Представляет собой работающий через RDP интерпретатор скриптов. Сами скрипты пишутся на Visual Basic с использованием специальных функций, таких как печать слов, запуск приложений и т.д. В качестве метрики используется время работы одного цикла нагрузки. Наиболее очевидные проблемы: слишком много приседаний нужно совершить, чтобы эмулировать даже элементарную нагрузку, метрика слишком скудна, сложно написать нетривиальную и стабильно работающую нагрузку (ввиду скромного набора функция самой tbscript). Позже были выпущены Remote Desktop Load SImulation Tools (тоже от Microsoft). Это скорее framework, т.е. нагрузку и метрики предлагаетя также создать самим.

Другая утилита это VSI (Virtual Session Indexer) от голландской LoginConsultants. Это был первый широко известный VDI Sizing Benchmark, его известности способствовал сайт projectvrc.nl, содержащий результаты тестирования продуктов от MIcrosoft, VMware и Citrix. Основные фишки этой утилиты — относительная простота процесса тестирования и наглядное представление результатов (графики времен отдельных операций, в зависимости от количества запущенных сессий). Я пытался пользоваться VSI, но возникло несколько проблем: неправильное измерение времени в виртуальных машинах (позже исправлено, но только в платной версии), зависание тестов при большой нагрузки, ну и отсутствие некоторых фич (например возможности изменить интервал и интенсивность нагрузки). В итоге пришлось писать свою утилиту.

Итак, VDI Sizing Tool (www.vdi-sizing.com). В ней я постарался избавиться от недостатков VSI, а именно:

— тес
стабилен даже при очень высокой нагрузке

— деплой максимально упрощен, нет необходимости в сетевой шаре и настроенном active directory (по сравнению с VSI)

— есть возможность варьировать интенсивность нагрузки и время между запуском сессий (что важно для стресс тестов)

— время измеряется корректно

— множество метрик (включая время установления RDP соединения, длительность цикла нагрузки, запуска приложений и т.д.)

Вообщем-то об устройстве утилиты и ее использовании можно почитать на vdi-sizing.com Если появятся вопросы, пожелания и предложения — буду рад ответить, пишите на vdi.sizing@gmail.com

Tagged with: , ,
Опубликовано в Enterprise IT
Отслеживать

Настройте получение новых записей по электронной почте.

Присоединиться к ещё 595 подписчикам