CNews Cloud: Облачные сервисы

Mail.ru запустила облако для работы с большими данными для всех желающих

Интернет Веб-сервисы Интеграция Инфраструктура Облачные технологии
мобильная версия
, Текст: Дмитрий Степанов
Mail.ru запустила масштабируемый «облачный» PaaS-сервис с развернутой инфраструктурой для обработки больших данных с посекундной тарификацией.

Новый игрок на рынке Big Data as a Service

Mail.ru представила новое масштабируемое PaaS-решение (Platform as a Service – платформа как услуга) для компаний, занимающихся сбором и анализом больших данных (Big Data). Сервис Mail.ru Cloud Big Data базируется на свободных решениях Apache Hadoop и Apache Spark и позволяет вынести обработку данных в «облако».

Использование Cloud Big Data следует рассматривать в качестве альтернативы развертыванию дорогостоящей локальной инфраструктуры для обработки больших данных.

Особенно актуальным решение может оказаться для организаций, основная деятельность которых непосредственно не связана с анализом данных, и в силу этого не способных обеспечить загрузку развернутой локальной инфраструктуры в режиме 24/7.

В этом случае аренда «облачных» вычислительных мощностей станет оптимальным решением, поскольку Mail.ru, как и многие другие PaaS-провайдеры, предлагает посекундную тарификацию при использовании арендованной инфраструктуры. То есть клиент платит только за фактическое время работы оборудования и избегает затрат, связанных с развертыванием и обслуживанием собственной инфраструктуры. Так, кластер Hadoop из 10 узлов обойдется клиенту в 39 руб. за один час работы.

mailruoffice600x315.jpg
Mail.ru вышла на рынок решений для обработки больших данных (Big Data)

По заявлению Mail.ru, вычислительные ресурсы масштабируются от пары серверов до сотен и обратно за несколько минут.

Кроме того, предусмотрена приватная сеть с компонентами Hadoop и другими сервисами в клиентской ИТ-системе для создания гибридного «облака», а также миграция приложений для Hadoop из «облака» Amazon и Azure без изменения кода.

Пользователь сервиса Cloud Big Data имеет возможность создать собственный кластер уникальной конфигурации для решения конкретной задачи, подключив нужные модули. Среди доступных модулей значатся: HDFS, YARN, MapReduce2, Tez, Hive, HBase, Pig, ZooKeeper, Storm, Kafka, Spark2, Zeppelin Notebook, Sqoop, Oozie, Falcon, Flume, Accumulo, Ambari Infra, Ambari Metrics, Atlas, Knox, Log Search, Ranger, Ranger KMS, SmartSense, Spark, Druid, Kerberos, Mahout, Slider, Superset.

Mail.ru предоставляет возможность бесплатно протестировать новую услугу.

Организациям, желающим применять технологии анализа больших данных, но не разобравшихся с этим решением самостоятельно, в Mail.ru c 2015 г. действует направление Predictive Analytic Solutions. Команда направления занимается разработкой сервисов класса AaaS (Analytics As A Service – аналитика как сервис) на основе предиктивных моделей для решения бизнес-задач. Таким образом, любой желающий может получить услуги бизнес-аналитики вне зависимости от специфики его бизнеса и компетентности в сфере информационных технологий.

Напомним, что осенью 2017 г. МТС, российский поставщик телекоммуникационных услуг, объявил о запуске «Cloud МТС», облачной платформы для анализа больших данных на базе Hadoop и Spark. Стоимость использования сервиса составляла от 5 тыс. руб. в месяц.

Аналогичные услуги предлагают компании Amazon (AWS - Amazon Web Services) и Microsoft (Azure).

О Big Data

Термином Big Data обозначают разнообразные структурированные или неструктурированные данные большого объема, которые, как правило, обрабатываются масштабируемыми программными инструментами.

В наши дни анализ больших данных позволяет решать широчайший спектр задач: от кредитного скоринга, разбора операционной деятельности компании и распределения транспортной нагрузки до поиска ископаемых, проведения исследований в области медицины, социологии, астрономии.

Наиболее часто применяемым для анализа больших данных инструментом является Hadoop, проект фонда Apache Software Foundation, включающий в себя набор свободно распространяемых утилит, библиотек и кроссплатформенный фреймворк (платформа, упрощающая разработку приложения). Решение применяется для разработки и выполнения распределенных программ и функционирует в соответствии с парадигмой MapReduce. Hadoop подойдет, к примеру, для индексации веб-сайтов, научных исследований.

Также большую популярность приобрел свободно распространяемый фреймворк Apache Spark, который в связке с Hadoop позволяет реализовать распределенную обработку слабоструктурированных или вовсе не структурированных данных. Благодаря особенностям архитектуры Spark позволяет добиться существенного выигрыша в скорости при решении некоторых видов задач, в частности – для машинного обучения. Spark применяется для потоковой обработки и анализа данных в реальном времени: сегментации посетителей сайтов, обнаружения мошенничества, мониторинга транспорта.

Применение платформ Apache Hadoop и Apache Spark позволяет быстро и точно обрабатывать огромные объемы данных из разнородных источников.