Весь сайт

Высоконагруженные хранилища данных

В рамках работы с хранилищами больших данных, GlowByte Consulting использует платформы и решения, хорошо зарекомендовавшие себя и широко используемые по всему миру. Это Teradata, EMC GreenPlum, Oracle Exadata, SAP HANA, IBM Netteza, HP Vertica. Исходя из специфики задания и пожеланий заказчика мы выбираем один из этих инструментов.

Наши наработки

Конкретно в области больших данных мы ориентируемся на два основных инструмента — Hadoop Implementations и Big Data Analytics & Real Time Big Data Analytics. Но мы также рекомендуем обратить внимание на смежные продукты, которые могут существенно умножить эффект от внедрения. Это технологии Teradata, Pivotal Greenplum Database (Pivotal HD), IBM Netezza (IBM PureData), Oracle Exadata (Oracle BigData Connector); сбор и обработка неструктурированных текстовых данных (Text Mining); текстовая аналитика для этих данных; построение комплексных хранилищ данных; реализация приближенных к реальному времени аналитических систем.

Характеристики и отличия популярных платформ

Вышеперечисленные платформы для параллельной обработки больших объемов данных в общих чертах похожи, но у каждой из них есть свои особенности.

EMC GreenPlum поставляется в двух вариантах — и как программно-аппаратный комплекс, и как дистрибутив, который можно внедрить, используя свое оборудование. В EMC GreenPlum внедрены возможности построчного, поколоночного хранения, а также алгоритмической компрессии. Greenplum HD тесно интегрирован с Hadoop.

IBM Netteza (IBM PureData) поставляется только программно-аппаратным комплексом. В платформу внедрены единственные в своем роде ускорители базы данных, устройства на основе программируемых матриц для усечения и проекции данных на уровне дисков. В IBM Netteza используется постоянное эффективное сжатие данных. По опыту нашей работы с этой платформой, данные сжимаются в среднем в 4 раза. Используя IBM PureData можно построить систему на основе техники MapReduce.

Teradata тоже поставляется только комплексом — аппаратная и программная часть в одном целом. Teradata использует словарное и алгоритмическое сжатие, в отдельных версиях присутствуют ускорители для сжатия данных. Преимуществами данной платформы можно считать гибкую физическую модель данных, интеграцию с Hadoop на уровне приложений и тесную интеграцию с Cloudera Hadoop.