Blog-Image-Lewis-Belgium-2010

Современные автомобильные гонки требуют постоянного анализа огромных массивов данных, поступающих с гоночных автомобилей во время тренировок, квалификаций и гоночных заездов.

Гонки же Формулы 1 представляют собой передовую инноваций не только автоспорта, но и автомобильной промышленности. Причём это касается и информационных технологий. Так, автомобиль Формулы 1 генерирует сотни миллионов точек данных в час. Данные в систему мониторинга и оценки производительности поступают от тысяч компонент автомобиля ежесекундно. Во время одной гонки или тестового заезда одна гоночная машина производит 700 миллионов значений данных, генерируемых менее чем за два часа. За один сезон, гоночная команда накапливает сотни миллионов измерений. Извлечение и анализ такого большого количества исторических данных для получения полезных и значимых данных является серьёзным вызовом для гоночных команд.

Один из лидеров современной Формулы 1 McLaren, которая, помимо участия в гонках Formula 1, также делает “гражданские” спорткары, решила одной из первых в мире испытать решение SQL Server PDW (Parallel Data Warehouse). Консультанты компании EMC помогли построить аналитическое хранилище на основе SQL Server PDW, серверов Dell PowerEdge и систем хранения EMC CLARiiON. Тестовая система, на которой отрабатывались сценарии загрузки данных и анализа, построена на стандартном оборудовании DeLL и EMC и состоит из серверного шкафа управления и одного шкафа данных, состоящего из восьми узлов БД.

Результаты тестов

  • загружено 1.5 ТБ данных одной сессии в хранилище PDW.
  • Скорость загрузки более 100 Мбайт в секунду.

Такие скорости загрузки позволяют загрузить в аналитическую систему данные одного заезда гоночной машины и сделать их доступными для анализа за 7 минут.

После загрузки данных в хранилище, была проведена симуляция и объём хранилища составил 12 ТБ. Это позволило эмулировать данные с 90 полных гоночных заездов и тестовых сессий. Такой объём данных позволил проводить анализ по общим данным сессий, содержащимся почти в 400 миллиардов строк телеметрических данных.image

Консультанты EMC, смогли провести поиск сходных шаблонов данных между сессиями, затрачивая на каждый запрос примерно 13 секунд.

В результате тестовых испытаний Parallel Data Warehouse появилась возможность проводить интерактивный анализ по всему объёму исторических данных, получая за секунды ответы на вопросы “Где такое случалось раньше?” и “Как это событие связано с другим событием?”. Таким образом решение PDW позволяет находить и строить различные зависимости и взаимосвязи между кластерами данных в различной исторической перспективе.

Подробности о решении здесь.

По-моему этот пример, который стал одним из первых публичных примеров использования PDW для анализа данных. Прошу заметить, что этот пример, также показывает один из полезных и удобных для заказчиков моментов решения Microsoft SQL Server Parallel Data warehouse – быстрый анализ больших объёмов данных возможен за небольшие деньги на стандартном оборудовании различных вендоров.

Упоминания в Twitter

pdiyakov McLaren собирается использовать SQL Server Parallel Data Warehouse http://itaas.ru/d6u
Re-Tweet | Reply | View Tweet
View Comments

Многие уже знают про то, что такое SQL Server 2008 R2 Parallel Data Warehouse. На сайте HP доступна информация о первом программно-аппаратном комплексе для поддержки SQL Server PDW. Называется он HP Enterprise Data Warehouse Appliance. Рассчитан HP EDWA на построение хранилищ данных размерами от 48 ТБ до 500 ТБ.

Вычислительные узлы строятся на основе серверов HP ProLiant DL360 G7 с двумя Intel® Westmere процессорами и 12 ядрами и СХД HP StorageWorks P2000 G3 MSA.

Я пока не могу очень много информации распространять, посему привожу ссылки на сайт HP, где многое доступно уже сейчас.

Статья в блоге SQLPDW про HP EDW

HP EDW site

HP EDW fact sheet

Упоминания в Twitter

MShishov RT @pdiyakov: Немного про HP Enterprise Data Warehouse Appliance http://itaas.ru/k1t
Re-Tweet | Reply | View Tweet
pdiyakov Немного про HP Enterprise Data Warehouse Appliance http://itaas.ru/k1t
Re-Tweet | Reply | View Tweet
View Comments

PDW_Hub_and_Spoke_Picture_v3Последние несколько дней я задаюсь вопросом: а зачем люди выбирают большую очень дорогую железку с очень дорогим софтом (всё от одного производителя) для того, чтобы построить хранилище данных? Когда начинаешь ковырять тему поглубже начинаешь задаваться ещё одним вопросом: зачем выбирать это супер дорогое решение, если его даже протестировать нельзя у себя?

Вот у Microsoft видение на архитектуру хранилищ данных иное (речь идёт о Parallel Data Warehouse или PDW):

1. Хранилище данных не обязательно должно быть дорогим с точки зрения аппаратуры (можно использовать стандартное железо)

2. Хранилище данных может быть распараллеливаемым и строиться из модулей

3. виртуализация в полный рост. Я в данном моменте имею в виду, виртуализацию, как абстрагирование софта от конкретного серверного железа.

4. Хранилище данных можно строить на менее дорогом ПО. (в тему статья о том, почему SQL Server реально дешевле Oracle)

Получаем решение, которое заказчики могут строить на различных протестированных конфигурациях (appliances) от разных вендоров железа. Можно построить распределённую параллельную конструкцию, которая увязывает воедино различные источники и витрины данных, при этом пользователи работают в привычной среде с привычных устройств (никто не мешает ходить с iPad к порталу на SharePoint 2010 и работать с отчётами через Office Web Apps).

Я считаю главным преимуществом этого подхода именно вариативность по железкам. Вы можете использовать сначала железо одного вендора, а потом другого. В случае нехватки мощностей, можно докупить дополнительный модуль (от третьего уже производителя). Никаких проблем с тестированием решения для обкатки архитектуры, никаких проблем с выбиванием хороших цен – конкуренция двигатель снижения расходов заказчиков.

Почитать можно подробнее здесь:

SQL Server 2008 Parallel Data Warehouse Edition – http://www.microsoft.com/sqlserver/en/us/editions/data-warehouse.aspx

Enterprise Data Warehousing -http://www.microsoft.com/sqlserver/en/us/solutions-technologies/data-warehousing.aspx

Презентация PDW – http://www.microsoft.com/global/sqlserver/2008/en/us/RichMedia/Parallel%20Data%20Warehouse/Default.html

upd После дискуссии в Twitter добавил в заголовок поста слово очень. Так справедливей.

Упоминания в Twitter

pdiyakov Должно ли хранилище данных стоить дорого? http://itaas.ru/tzm
Re-Tweet | Reply | View Tweet
View Comments

Категории

Web 2.0 штучки


Лента обновлений

Архив

ТОП записей

Тэги

IT as a Service

Microsoft App Platform

Mission Critical Solutions

SQL Server resources

Комментарии

Тэги

Архив