Hadoop *

Фреймворк для распределённых приложений

Статьи Посты Новости Авторы Компании

ebogdanov 16 дек 2024 в 13:37

Мой опыт эксплуатации кластера Trino

Средний

6 мин

991

Big Data*Hadoop*SQL*

Trino — высокопроизводительный распределённый SQL-движок, с возможностью объединения данных из разнородных источников, таких как: реляционные БД, файловые хранилища, шины данных, inmemory-хранилища, облачные сервисы и тд. Архитектура ориентирована на выполнение аналитических запросов с минимальной задержкой. Т.е. с его помощью можно отправлять SQL-запросы в MongoDB и Kafka, например. Благодаря скорости, развитию, и удобству захватывает популярность у инженеров и аналитиков, работающих с bigdata.

Я познакомился с Trino 1 год назад, за это время настроил с нуля кластер на baremetal и помог с проблемами в нескольких других. В этой статье делюсь краткой выжимкой опыта эксплуатации, накопленным за это время. Большая часть информации будет актуальна и для российского форка Trino: CedrusData.

EvgenyVilkov 16 дек 2024 в 10:40

Тестирование систем и движков массивно-параллельных вычислений. Сравнение Impala, Trino и GreenPlum

Средний

13 мин

1.6K

Big Data*Hadoop*Хранилища данных*Open source*Data Engineering*

Успешные тестирование производительности и нагрузочные испытания – важнейшие условия для выбора аналитической системы массивной обработки больших данных. В этой публикации я хочу поделиться подходами к тестированию, которые используются нашей командой как в проектной работе, так и при разработке Lakehouse-платформы данных Data Ocean Nova, и познакомить вас с результатами сравнения различных движков и систем. Вы узнаете, как правильно ставить цели, выбирать методику и из каких сценариев ее нужно составлять, как протоколировать результаты и делать выводы. И самое главное – получите ответ на вопросы: кто быстрее: заяц Trino или антилопа Impala?

EvgenyVilkov 2 окт 2024 в 23:24

Современная Lakehouse-платформа данных Data Ocean Nova

Средний

15 мин

3.5K

Big Data*Hadoop*Хранилища данных*Open source*Data Engineering*

Обзор

Привет. Меня зовут Евгений Вилков. Я занимаюсь системами управления и интеграции данных с 2002 г., а конкретно системами анализа и обработки данных — с 2007 г. Технологии, с которыми я имел дело на протяжении моего профессионального пути, стремительно развивались. Начиная с решений, основанных на стеке традиционных СУБД, таких как Oracle, MS SQL Server, Postgres, постепенно эволюционируя в ставшие уже классическими (а некоторые даже и закрытыми) MPP-системы, такие как Teradata, GreenPlum, Netezza, Vertica, IQ, HANA, Exadata, ClickHouse, в различные решения на базе экосистемы Hadoop, облачные сервисы и платформы. Меняется мир, меняются технологии, меняются подходы к проектированию, меняются и требования к задачам аналитического ландшафта данных.

Уверен, что многие, кто уже знаком с терминами Data Mesh и Data Lakehouse, задаются вопросом: что может предложить рынок аналитических систем в этих методологиях проектирования и архитектурных подходах. Я хочу рассказать об аналитической платформе данных Data Ocean Nova, владельцем и технологическим идеологом которой я являюсь.

+11

Sber 19 авг 2024 в 16:00

Как мы перенесли архив данных из Teradata в GreenPlum с помощью Hadoop и PXF

Средний

8 мин

Блог компании СберАдминистрирование баз данных*Хранилища данных*Hadoop*

Кейс

Привет, Хабр! Мы продолжаем серию статей о проведённой миграции аналитического хранилища данных с платформы Teradata на GreenPlum. В предыдущей статье мы рассказали о нашем опыте и результатах автоматизированного переписывания SQL-скриптов из диалекта Teradata в диалект GreenPlum с помощью реализованного сервиса миграции кода. В этой статье мы расскажем вам о полученном нами опыте и результатах переноса архива данных объёмом более 400 Тб из Teradata в GreenPlum, а также о трудностях и решениях, связанных с этим процессом.

+14

vladislav_shevchenko 18 июл 2024 в 19:31

Руководство по Apache Spark не для начинающих: оптимизация

Средний

15 мин

6.5K

Блог компании Альфа-БанкBig Data*Hadoop*Data Engineering*

Туториал

Руководство по Apache Spark не для начинающих.

В прошлой статье я писал о возможностях и функциях Apache Spark для обработки данных. Мы сосредоточились на ключевых функциях чтения, обработки и сохранения данных, не забывая о примерах кода, которые помогут новичкам быстро включиться в работу.

В этой статье мы пойдём глубже и рассмотрим оптимизацию. Сосредоточимся на базовых концепциях, оптимизации запросов и соединениях. Конечно же, с примерами.

+22

akhlestin 28 июн 2024 в 11:34

Как упаковать бэкенд-код на Go для аналитики на базе Spark

Средний

7 мин

2.4K

Блог компании AvitoTechGo*Big Data*Hadoop*Data Engineering*

Всем привет! Я Ваня Ахлестин, занимаюсь поддержкой и развитием аналитической платформы кластера Search&Recommendations на базе Spark и Hadoop в Авито. Сегодня расскажу, как начать использовать ваш код из Python или PySpark и не тратить много времени дорогих разработчиков.

Ninil 4 июн 2024 в 07:41

[Туториал] Пишем собственные Spark Native Functions (Часть 2)

Сложный

12 мин

802

Scala*Big Data*Hadoop*Data Engineering*

Туториал

В предыдущей своей статье Почему стоит начать писать собственные Spark Native Functions? (Часть 1), которая является переводом и которая вдохновила меня на собственные изыскания, был разобран пример, как написать свою Spark Native Function по генерации UID. Это, конечно, здорово, но вот только данная функция не принимает аргументы на вход, в то время как в реальной практике нам требуются обычно функции, которым надо передать на вход 1, 2 или 3 аргумента. Такие случаи не рассматриваются в упомянутой выше переводной статье - ну что ж, попробуем восполнить этот пробел!

Ниже я предлагаю вашему вниманию результаты своих изысканий по созданию собственных Spark Native Functions, которые бы принимали на вход несколько аргументов.

badcasedaily1 28 мая 2024 в 20:37

Интеграция PostgreSQL и Hadoop

5 мин

2.9K

Блог компании OTUSHadoop*PostgreSQL*

Представим некое перепутье, где с одной стороны — мощные возможности PostgreSQL, а с другой — необъятные просторы Hadoop. Выбор кажется сложным, но зачем выбирать одно, если можно соединить их и получить лучшее из обоих?

Объединяя их можно создать мощную систему, способную обрабатывать и анализировать огромные объемы данных.

andbul 7 мая 2024 в 11:03

Рулим запуском Spark-приложений в Airflow с помощью самописного оператора

Сложный

16 мин

5.6K

Блог компании Lamoda TechPython*Big Data*Hadoop*Data Engineering*

Кейс

Airflow в Lamoda Tech играет роль оркестратора процессов обработки данных. Ежедневно с его помощью мы запускаем 1 800+ тасок на проде, примерно половина из которых являются Spark-приложениями.

Все Spark-приложения сабмитятся из Docker-контейнеров. И здесь сталкиваемся с проблемой: в нашем случае не существует готовых решений для запуска Spark-приложений, позволяющих легко править конфигурацию и следить за количеством потребляемых ресурсов.

Меня зовут Андрей Булгаков, я лид команды разработчиков Big Data в Lamoda Tech. Вместе с разработчиком Иваном Васенковым в этой статье мы поделимся историей создания Airflow-оператора для запуска Spark-приложений.

+20

Ninil 24 апр 2024 в 12:34

[Перевод] Почему стоит начать писать собственные Spark Native Functions?

5 мин

1.4K

Scala*Big Data*Hadoop*Data Engineering*

Туториал

Перевод

Это мой вольный перевод статьи "Why You Should Start Writing Spark Custom Native Functions", которая вдохновила меня на некоторые собстенные изыскания по данной теме. Их результат я планирую опубликовать позже, а пока выношу на ваш суд этот перевод.

Статья на примере реализации функции по генератации UUID рассматривает, как писать Spark native функции, которые были бы "прозрачны" для Catalyst (в отличии от UDF, которые являются "черными ящиками" для него). Сравнение производительности ожидаемо показывает, что Catalyst Expressions значительно превосходят UDF при увеличении размера данных.

Кому интересно узнать, как писать Spark native функции - прошу под кат.

vladislav_shevchenko 17 апр 2024 в 16:57

SPARK для «малышей»

Простой

14 мин

14K

Блог компании Альфа-БанкHadoop*Data Engineering*

Туториал

Примеры кода на Python для работы с Apache Spark для «самых маленьких» (и немного «картинок»).

Данная статья представляет собой обзор основных функций Apache Spark и рассматривает способы их применения в реальных задачах обработки данных. Apache Spark — это мощная и гибкая система для обработки больших объёмов данных, предлагающая широкий спектр возможностей для аналитики и машинного обучения. В нашем обзоре мы сфокусируемся на ключевых функциях чтения, обработки и сохранения данных, демонстрируя примеры кода, которые помогут новичкам быстро включиться в работу и начать использовать эти возможности в своих проектах.

+26

indmitriev 6 мар 2024 в 10:41

Путь от монолита к разделению Compute и Storage: пример поиска «хранилища мечты» для большой аналитической платформы

Средний

10 мин

3.5K

Блог компании СберБлог компании VKХранилища данных*Хранение данных*Hadoop*

Кейс

Для запуска и эксплуатации высоконагруженных ИТ-решений с петабайтами данных в активе, нужно проработанное решение, позволяющее гибко управлять ресурсами. Одним из критичных аспектов этого решения, является разделение Compute & Storage — разделение ресурсов инфраструктуры под вычисление и хранение соответственно. Если не реализовать такое разделение в крупном проекте, инфраструктура рискует превратиться в «чемодан без ручки» — эффективность использования ресурсов будет низкой, а сложность управления ресурсами и средами будет высока. На примере команды SberData и их корпоративной аналитической платформы я расскажу, когда требуется разделение Compute & Storage и как это реализовать максимально нативно.

Статья подготовлена по мотивам доклада на VK Data Meetup «Как разделить Compute & Storage в Hadoop и не утонуть в лавине миграций».

+16

Falcon_eye 25 ноя 2023 в 23:11

Оптимизация запроса и запрос оптимизации

Средний

3 мин

Data Engineering*Hadoop*SQL*Администрирование баз данных*

Из песочницы

Recovery Mode

Как не грабить память, не пытать диск, не мучать кластер. Или делать все это всего одним запросом на Impala к Hadoop.

Среди задач аналитиков данных, в рамках которых необходимо иметь дело с большими объемами однотипных данных, выделяются задачи построения витрин данных, автоматизации процессов сбора и обработки данных. Многие аналитики используют различные реляционные базы данных, в таблицах которых хранятся огромные объемы информации, агрегация и доступ к которым может занимать долгое время, поэтому правильное составление и оптимизация запросов к этим таблицам становится критически необходимым фактором для работы аналитиков, инженеров данных и data scientist.

sle_mary 29 сен 2023 в 17:51

Hadoop в любой непонятной ситуации. Как выжить кластеру в большой ML команде

Средний

9 мин

4.8K

Блог компании МегаФонPython*Big Data*Машинное обучение*Hadoop*

Туториал

Привет, Habr !

Я работаю инженером по машинному обучению в Мегафоне. Занимаюсь аналитикой данных и являюсь частью команды разработки MLOps платформы. Задача нашей команды состоит в том, чтобы выстраивать и оптимизировать процессы разработки и продуктивизации моделей машинного обучения, предоставлять функционал для основных этапов (сбор данных, MQ/DQ, продуктивизация).

Сегодня поговорим о том, какие сложности могут возникать при работе с кластером Hadoop и какие есть методы для их решения.

Видеозапись по мотивам статьи можно посмотреть здесь.

Эта статья будет интересна аналитикам и инженерам, которые работают с BigData и регулярно сталкиваются с необходимостью продуктивизировать модели на Hadoop.

PastorGL 22 сен 2023 в 16:36

Искусство ETL. FAQ по Data Cooker ETL

5 мин

3.9K

SQL*Open source*Hadoop*Data Engineering*Big Data*

FAQ

Как и было обещано, в завершение серии ( 1 • 2 • 3 • 4 • 5 ) статей о разработке инструмента для ETL больших данных, я выкладываю выжимку ответов на вопросы.

А то статьи были в формате туториала для разработчиков таких инструментов (длинные и с высоким уровнем сложности), так что стоит рассказать более кратко и понятно для каждого.

Q. Что это такое?

A. Специализированный инструмент для а) быстрого создания ETL процессов и б) эффективного по стоимости их выполнения.

Промка: https://dcetl.ru
Исходники: https://github.com/PastorGL/datacooker-etl
Официальная группа в телеге: https://t.me/data_cooker_etl

Читать дальше →

PastorGL 18 сен 2023 в 16:34

Искусство ETL. Пишем собственный движок SQL на Spark [часть 5 из 5]

Сложный

14 мин

1.9K

Программирование*SQL*Open source*Hadoop*Big Data*

Туториал

REPL

В данной серии статей я подробно рассказываю о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи подготовки и трансформации наборов данных.

Краткое содержание предыдущей серии, посвящённой API расширения и разного рода технической обвязке:

Расширяемость. API подключаемых функций
Режимы запуска. Пакетный режим, сборка для разных окружений, автотесты

Теперь можно поговорить о последних штрихах, делающих инструмент — инструментом, а именно, об интерактивно-отладочном режиме, то есть, REPL, клиенте и сервере, а также о генераторе документации.

Предупреждение о рейтинге «M for Mature»

Уровень сложности данной серии статей — высокий. Базовые понятия по ходу текста вообще не объясняются, да и продвинутые далеко не все. Поэтому, если вы не разработчик, уже знакомый с терминологией из области бигдаты и жаргоном из дата инжиниринга, данные статьи будут сложно читаться, и ещё хуже пониматься. Я предупредил.

Читать дальше →

PastorGL 15 сен 2023 в 16:16

Искусство ETL. Пишем собственный движок SQL на Spark [часть 4 из 5]

Сложный

15 мин

1.8K

Big Data*Hadoop*Java*Open source*Программирование*

Туториал

public abstract class Operation implements Configurable<OperationMeta>

В данной серии статей я подробно рассказываю о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи подготовки и трансформации наборов данных.

Краткое содержание предыдущей серии, посвящённой имплементации спеки языка в коде:
Заметка об использовании prior art
Наборы данных в контексте исполнения
Переменные, настройки контекста исполнения, и метаданные параметров подключаемых функций
Интерпретатор, контекст исполнения, операторы выражений

Разобравшись со всеми контекстами и устройством ядра интерпретатора, можно перейти к описанию API точек расширения, режимов запуска, и технической обвязки сборки исполняемых артефактов.

Предупреждение о рейтинге «M for Mature»

Читать дальше →

+10

PastorGL 14 сен 2023 в 17:00

Искусство ETL. Пишем собственный движок SQL на Spark [часть 3 из 5]

Сложный

20 мин

1.9K

SQL*Open source*Java*Hadoop*Big Data*

Туториал

04_assets_residents.tdl

В данной серии статей я подробно рассказываю о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи подготовки и трансформации наборов данных.

Краткое содержание предыдущей серии, последней, посвящённой проектированию спецификации языка:
Операторы жизненного цикла наборов данных (продолжение)
Операторы контроля потока выполнения
Операторы управления контекстом исполнения
Операторы выражений

В данном эпизоде мы наконец-то перейдём к самому интересному — имплементации. Хорошо, когда есть развёрнутая постановка задачи, можно просто брать спеку, и писать код согласно плану.

Предупреждение о рейтинге «M for Mature»

Читать дальше →

PastorGL 13 сен 2023 в 14:50

Искусство ETL. Пишем собственный движок SQL на Spark [часть 2 из 5]

Сложный

13 мин

1.8K

Программирование*Open source*Java*Hadoop*Big Data*

Туториал

В данной серии статей я подробно расскажу о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи подготовки и трансформации наборов данных.

Краткое содержание предыдущей серии:
Вступление
Постановка задачи
Проектирование языка. Операторы жизненного цикла наборов данных
Проектирование системы типов

Предупреждение о рейтинге «M for Mature»

Читать дальше →

+10

PastorGL 12 сен 2023 в 16:40

Искусство ETL. Пишем собственный движок SQL на Spark [часть 1 из 5]

Сложный

18 мин

7.6K

Big Data*Data Engineering*Hadoop*Java*Open source*

Туториал

В данной серии статей я подробно расскажу о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи подготовки и трансформации наборов данных.

— Евдокимов, ты что, совсем уже там кукухой поехал?! При живом-то Spark SQL! Опять ты ненормальным программированием маешься, нет бы что-то полезное делал…
— Ну-ну-ну, спокойно, спокойно. Я ещё настолько не уехал, чтобы потратить целый год на страдание полной ерундой. Речь на сей раз пойдёт не о развлекухе, а о диалекте языка, специализированном для решения целого класса задач, для которых любой существующий SQL был бы, в теории, хорошим решением, если бы не несколько серьёзных «но».

Короче, у нас будет немного не такой SQL, который вы все так хорошо знаете, но и этот вариант вы полюбите, я обещаю. Тут лучше другой вопрос задать:
— Разве кому-то нужен голый SQL-ный движок?

Нет, голый — не нужен. Так рассказывать я буду о разработке настоящего production ready инструмента, с интерактивным шеллом с подсветкой синтаксиса и автодополнением, который сможет работать в клиент-серверном режиме, и не только на кластере, но и локально. Да не монолитный, а расширяемый при помощи подключаемых функций. И с автогенератором документации впридачу. Короче, всё будет совсем по-взрослому, с рейтингом M for Mature.

В каком смысле «M for Mature»?

Читать дальше →

+20

2 3 ...

11 12

Hadoop *

Мой опыт эксплуатации кластера Trino

Новости

Тестирование систем и движков массивно-параллельных вычислений. Сравнение Impala, Trino и GreenPlum

Современная Lakehouse-платформа данных Data Ocean Nova

Как мы перенесли архив данных из Teradata в GreenPlum с помощью Hadoop и PXF

Истории

Руководство по Apache Spark не для начинающих: оптимизация

Как упаковать бэкенд-код на Go для аналитики на базе Spark

[Туториал] Пишем собственные Spark Native Functions (Часть 2)

Интеграция PostgreSQL и Hadoop

Рулим запуском Spark-приложений в Airflow с помощью самописного оператора

[Перевод] Почему стоит начать писать собственные Spark Native Functions?

SPARK для «малышей»

Путь от монолита к разделению Compute и Storage: пример поиска «хранилища мечты» для большой аналитической платформы

Оптимизация запроса и запрос оптимизации

Ближайшие события

Hadoop в любой непонятной ситуации. Как выжить кластеру в большой ML команде

Искусство ETL. FAQ по Data Cooker ETL

Искусство ETL. Пишем собственный движок SQL на Spark [часть 5 из 5]

Искусство ETL. Пишем собственный движок SQL на Spark [часть 4 из 5]

Искусство ETL. Пишем собственный движок SQL на Spark [часть 3 из 5]

Искусство ETL. Пишем собственный движок SQL на Spark [часть 2 из 5]

Искусство ETL. Пишем собственный движок SQL на Spark [часть 1 из 5]

Вклад авторов