Что такое real-time обработка больших данных и когда она нужна?
Real-time обработка данных - метод обработки данных, при которых данные обрабатываются небольшими порциями. Работа с каждой порцией занимает минимальное время, поэтому мы всегда имеем актуальный результат.
Отличными примерами real-time обработки больших данных являются потоковая передача данных, радиолокационные системы, рекомендательные системы и банкоматы, где немедленная обработка имеет решающее значение для правильной работы системы.
Для кого:
Data engineers и архитекторы BigData приложений, которые интересуются методами realtime-обработки данных
Разработчики из других сфер, которым интересно получить Best practices в области realtime-обработки данных
Предварительная подготовка:
знание Python, Scala или Java, SQL
Программы и результаты обучения:
Realtime BigData workshop | 01 октября 2021
1 день
10.00- 18.00
8 ак.ч
Научитесь разрабатывать приложения на Spark и запускать их на реальном Hadoop-кластере.
Научитесь строить pipelines обработки данных в реальном времени, используя Spark Structured streaming.
Основной упор будет на практике. Мы будем всё делать собственными руками: редактировать код, собирать и устанавливать приложение, гонять его на кластере. Скучать будет некогда.
Тема 1. Большие данные и парадигма mapreduce | BigData and MapReduce paradigm Тема 2. Итеративные вычисления на больших данных и spark | Iterative computing with BigData. Apache Spark Тема 3. Spark RDD and Data frame APIs
Streaming Processing сложнее, чем Batch Processing по следующим причинам: - Нет момента «окончания работы» приложения, напротив, приложение должно работать всегда: 24/7 - Важны не только объёмы данных, но и временные характеристики всех компонентов системы - Балансировка нагрузки по нодам кластера может изменяться по ходу работы - Форматы данных неизбежно меняются с течением времени, но приложение должно работать непрерывно и обеспечивать совместимость для потребителей данных
В этом семинаре мы начнём с основ потоковой обработки данных. Мы разберём типичные области применения Streaming Processing. Затем мы познакомимся с Apache Spark Structured Streaming и реализуем несколько сценариев для онлайн-магазина. Мы уделим внимание следующим аспектам:
- агрегация по временным окнам - понятие времени и watermark - синхронизация потоков данных из нескольких источников - интеграция со сторонними системами через Apache Kafka - форматы данных - восстановление после аварии
Тема 4. Data streaming concepts. Spark Structured Streaming API. Output modes. Kafka integration and message formats. Streaming word count Тема 5. Time window aggregations. Timestamps and watermarks. Message deduplication. PracticeCount sold items in an online shop. Тема 6. Streaming joins. Failures and recovery. Streaming sales statistics per country. Lab: Recovery from a checkpoint
Тема 1. Большие данные и парадигма mapreduce | BigData and MapReduce paradigm Тема 2. Итеративные вычисления на больших данных и spark | Iterative computing with BigData. Apache Spark Тема 3. Spark RDD and Data frame APIs
Streaming Processing сложнее, чем Batch Processing по следующим причинам: - Нет момента «окончания работы» приложения, напротив, приложение должно работать всегда: 24/7 - Важны не только объёмы данных, но и временные характеристики всех компонентов системы - Балансировка нагрузки по нодам кластера может изменяться по ходу работы - Форматы данных неизбежно меняются с течением времени, но приложение должно работать непрерывно и обеспечивать совместимость для потребителей данных
В этом семинаре мы начнём с основ потоковой обработки данных. Мы разберём типичные области применения Streaming Processing. Затем мы познакомимся с Apache Spark Structured Streaming и реализуем несколько сценариев для онлайн-магазина. Мы уделим внимание следующим аспектам:
- агрегация по временным окнам - понятие времени и watermark - синхронизация потоков данных из нескольких источников - интеграция со сторонними системами через Apache Kafka - форматы данных - восстановление после аварии
Тема 4. Data streaming concepts. Spark Structured Streaming API. Output modes. Kafka integration and message formats. Streaming word count Тема 5. Time window aggregations. Timestamps and watermarks. Message deduplication. PracticeCount sold items in an online shop. Тема 6. Streaming joins. Failures and recovery. Streaming sales statistics per country. Lab: Recovery from a checkpoint
-Вы можете использовать собственный компьютер или воспользоваться компьютером, который будет предоставлен организаторами.
Для прохождения воркшопа вам понадобится компьютер со следующими характеристиками:
Железо: 16 GB RAM, 4 CPU cores
OS: Unix (любой, centOs тоже можно) или Mac (желательно не windows)
Программы:
Bash terminal
Linux or Mac - just terminal
Windows - one of: GitBash, Windows Subsystem for Linux (WSL)
Git
JDK 8 or later
Maven 3.6.0 or later
IntelliJ IDEA with Scala plugin
Программа и результаты обучения:
Workshop. Realtime обработка данных с использованием Kafka| 17-18 декабря 2021
2 дня
10.00-18.00, 10.00- 14.00
12 ак.ч
Необходимые знания: Python, Java,базовый Git и Docker
Получите опыт работы с распределенным брокером событий Kafka Научитесь строить приложения потоковой обработки данных с помощью Kafka Streams
Тема 1. Что такое Kafka и что она умеет Тема 2. Что такое потоковая архитектура и на что способны потоковые обработчики Тема 3. Основные инструменты разработчика
Тема 4. Kafka Streams: основы и stateless трансформации. Конфигурация приложения Тема 5. Трансформации с использованием локального состояния Тема 6. Дуализм «поток—таблица» и табличные join-ы Тема 7. Время и оконные операции
Получите 100% полезную теоретическую и практическую часть
Практические задания
На практике научитесь разрабатывать приложения обработки больших данных
Домашнее задание
Для закрепления навыков выполните домашнее задание
Удостоверение о повышении квалификации МФТИ
Получите удостоверение государственного образца при успешном выполнении заданий
Наши преподаватели
Олег Ивченко
Разработчик системы HJudge - системы автоматизирванного тестирования Hadoop-приложений, системный администратор инфраструктуры больших данных в группе Яндекс-CERN, преподаватель курсов по обработке больших данных в МФТИ, ВШЭ, ШАД, Harbour.Space
Арсений Ташоян
Инженер-разработчик Big Data & Machine Learning в Swisscom. Кроме того ведёт лекции и семинары по Streaming Processing для студентов МФТИ.
Иван Пономарев
Технический лидер в компании КУРС. Более 15 лет работает в ИТ, пишет код и руководит проектами от доработки ERP-систем до построения систем мониторинга данных в интернете в реальном времени, кандидат физико-математических наук, доцент кафедры алгоритмов и технологий программирования МФТИ
Стоимость
2 дня
Realtime обработка данных с использованием Kafka
41250 руб
Зарегистрироваться
Предлагаем нашим слушателям рассрочку на оплату обучения (только для физических лиц)
ПОДРОБНЕЕ
Условия рассрочки
По каждой из предлагаемых программ/курсов, имеется возможность оплаты обучения в рассрочку.
Условия рассрочки:
Полная стоимость обучения при использовании рассрочки не изменяется. Рассрочка беспроцентна, оформление рассрочки бесплатно.
Детали рассрочки описаны в оферте на каждую соответствующую программу/курс, в Приложении № 1 – График платежей.
В Графике платежей указаны контрольные даты, на которые слушателем суммарно за всё предшествующее такой дате время должна быть перечислена указанная в графике платежей соответствующая сумма, или превышающая её сумма (но не более полной стоимости обучения). Например:
Оплата через равные промежутки времени платежами одинакового размера
Оплата одним платежом в размере стоимости всего обучения
Все описанные варианты допустимы, если на каждую из обозначенных в графике платежей дат внесено платежей на сумму не меньше указанной.
Записаться на курс
Нажимая кнопку «Отправить», вы соглашаетесь с условиями обработки персональных данных
Факты о МФТИ - нам есть, чем гордиться!
Факт 1
МФТИ вошел в 50 лучших вузов мира по физике и в 100 лучших по математике по результатам рейтинга QS World University Rankings by Subject 2021
Факт 2
В общих рейтингах лучших университетов мира Times Higher Education и Quacquarelli Symonds МФТИ занимает первое место среди технических вузов России
2 выпускника МФТИ стали Нобелевскими лауреатами по физике в 2010 году
Факт 5
Среди молодых IT-специалистов, окончивших вузы в 2014-2019 годах, самые высокие зарплаты - 230 тыс. рублей в месяц - у выпускников Московского физико-технического института. Таковы результаты ежегодного исследования, проведенного порталом Superjob
Расписание курсов ФПМИ МФТИ 2024/2025
ОЗНАКОМИТЬСЯ
Есть вопрос?
Напишите нам - ответим на вопросы,
проведем консультацию по обучению
Обучение оплатит работодатель
Если вы хотите, чтобы ваше обучение оплатил работодатель, то вам нужно заполнить форму, которая поможет ускорить процесс согласования договора и начать обучение быстрее
Нажимая кнопку «Отправить», вы соглашаетесь с условиями обработки персональных данных
Отправка заявки на обучение в МФТИ
Предоставление доступа к обучению слушателю
Получение пакета документов и договора-оферты слушателем от МФТИ
Поступление оплаты на счет МФТИ
Передача документов в подразделение вашей организации
Согласование обучения внутри вашей организации
Шаги по оплате обучения работодателем
Скидки и спецпредложения не применяются
Мы работаем по 3х стороннему договору
Данные организации-заказчика
Данные слушателя
Эта анкета поможет ускорить процесс согласования договора и начать обучение быстрее.
Предоставленная информация будет использована для предварительного заполнения документов, что сэкономит ваше время.
Кроме того, мы гарантируем конфиденциальность ваших данных и обеспечим их безопасное хранение
Или вы можете приложить карточку вашей организации
Наш менеджер свяжется с вами для уточнения или дозапроса информации. Для того, чтобы начать обучение быстрее, заполните, пожалуйста, форму выше