Технические 15.09.2020

Big Data — большая ответственность, большой стресс и деньги

13 мин.
Содержание
  1. О профессии Big Data Analyst: специалиста по анализу больших данных
  2. Профессия «Big Data Analyst: специалист по анализу больших данных» на рынке труда России
  3. Где применяют машинное обучение
  4. Искусственный интеллект, машинное обучение – в чём разница?
  5. В чём специфика кода для машинного обучения
  6. Что такое «большие данные»
  7. Чем конкретно занимается ML-специалист
  8. Что делает аналитик данных
  9. Профессиональные компетенции аналитика данных: что должен знать Data Analyst
  10. Какие используются инструменты и технологии big data
  11. Список вузов Москвы на Big Data Analyst: специалиста по анализу больших данных
  12. Российский новый университет
  13. Инженерно-экономический институт
  14. Московский технический университет связи и информатики
  15. МИРЭА – Российский технологический университет
  16. Государственный университет управления
  17. Экономический факультет
  18. Офлайн-курсы для аналитиков big data
  19. Онлайн-курсы для аналитиков big data
  20. Бесплатное обучение на аналитика big data
  21. Методы аналитики больших данных
  22. Где набираться опыта самостоятельно

О профессии Big Data Analyst: специалиста по анализу больших данных

Специалист по анализу больших данных (Big Data Analyst) изучает огромные массивы информации со сложной неоднородной или неопределенной структурой (результаты исследований, рыночные тенденции, предпочтения клиентов и пр.). Анализ таких данных может дать иной уровень понимания предмета исследования и наблюдаемых феноменов, в результате чего могут быть сделаны открытия и созданы новые технологии, вещества, подходы к явлениям различных сфер жизни.

Главная компетенция специалиста по большим данным

Специалист по анализу больших данных (Big Data Analyst) изучает огромные массивы информации со сложной неоднородной или неопределенной структурой (результаты исследований, рыночные тенденции, предпочтения клиентов и пр.). Анализ таких данных может дать иной уровень понимания предмета исследования и наблюдаемых феноменов, в результате чего могут быть сделаны открытия и созданы новые технологии, вещества, подходы к явлениям различных сфер жизни.

Главная компетенция специалиста по большим данным – умение видеть логические связи в массивах собранной информации, и на основании этого разрабатывать новые подходы и решения.

По мере возникновения технологий, которые позволяют все быстрее и быстрее образатывать многогигабайтные массивы информации, профессия аналитика больших данных становится все более востребованной.

Инженеры Big Data отвечают за хранение, преобразование данных и быстрый доступ к ним. Аналитики Big Data отвечают за анализ больших данных, выявление взаимосвязей и построение моделей.

Что такое анализ данных?

Профессия «Big Data Analyst: специалист по анализу больших данных» на рынке труда России

По статистике популярных сайтов работы за последние 30 дней в России открыты 1 530 вакансий по 3 должностям профессии «Big Data Analyst: специалист по анализу больших данных» с указанием заработной платы.

Заработная плата

Средняя – 66 000

Минимальная – 42 700

Максимальная – 314 080

Максимальное количество вакансий по должностям

Аналитик – 603 вакансии

Аналитик (все специализации) – 488 вакансий

Big data analyst – 439 вакансий

Где применяют машинное обучение

Отвечает Сергей Ширкин – куратор специальности, декан факультетов искусственного интеллекта и аналитики Big Data в GeekUniversity, приглашённый преподаватель ВШЭ. С помощью машинного обучения строил финансовые модели в компании Equifax, автоматизировал процессы в Сбербанке и Росбанке. Применял ИИ для прогнозирования просмотров рекламы в Dentsu Aegis Network Russia.

Машинное обучение (Machine Learning, ML) позволяет автоматизировать умственный и физический труд человека. Поэтому ML используют поисковые системы, банки и страховые компании, ритейл, сотовые операторы, промышленные предприятия, рекламные и маркетинговые агентства.

Модель машинного обучения может делать прогнозы и распознавать образы точнее и быстрее, чем живой эксперт. Например, банки с помощью ML-моделей считают вероятность добросовестной выплаты по кредиту для каждого конкретного заёмщика. Причём, если эксперт анализирует одного клиента несколько минут, модель делает прогноз по миллионам клиентов за считаные секунды.

Искусственный интеллект, машинное обучение – в чём разница?

Машинное обучение – это большой подраздел науки об искусственном интеллекте — Data Science. Machine Learning наиболее часто применяется для практических целей. В целом внутри Data Science много направлений, и некоторые из них — например, обучение с подкреплением – ещё развиваются. По сравнению с ними машинное обучение – хорошо развитая область, востребованная бизнесом и наукой.

В чём специфика кода для машинного обучения

Чтобы писать хороший код для целей ML, обязательно понимать, как работают модели машинного обучения. Для этого нужно хорошо знать математику и алгоритмы анализа данных. А также уметь понимать данные: их специфику, возможные проблемы, способы обработки и очистки. Без этого даже готовые реализации из библиотек не получится использовать грамотно. 

Что такое «большие данные»

Вопрос «что называть большими данными» довольно путаный. Даже в публикациях научных журналов описания расходятся. Где-то миллионы наблюдений считаются «обычными» данными, а где-то большими называют уже сотни тысяч, потому что у каждого из наблюдений есть тысяча признаков. Поэтому данные решили условно разбить на три части — малые, средние и большие — по самому простому принципу: объему, который они занимают.

Малые данные — это считанные гигабайты. Средние — все, что около терабайта. Одна из основных характеристик больших данных — вес, который составляет примерно петабайт. Но путаницу это не убрало. Поэтому вот критерий еще проще: все, что не помещается на одном сервере — большие данные.

В малых, средних и больших данных разные принципы работы. Большие данные как правило хранятся в кластере сразу на нескольких серверах. Из-за этого даже простые действия выполняются сложнее.

Например, простая задача — найти среднее значение величины. Если это малые данные, мы просто все складываем и делим на количество. А в больших данных мы не можем собрать сразу всю информацию со всех серверов. Это сложно. Зачастую надо не данные тянуть к себе, а отправлять отдельную программу на каждый сервер. После работы этих программ образуются промежуточные результаты, и среднее значение определяется по ним

 Какие компании занимаются большими данными

Первыми с большими данными, либо с «биг дата», начали работать сотовые операторы и поисковые системы. У поисковиков становилось все больше и больше запросов, а текст тяжелее, чем цифры. На работу с абзацем текста уходит больше времени, чем с финансовой транзакцией. Пользователь ждет, что поисковик отработает запрос за долю секунды — недопустимо, чтобы он работал даже полминуты. Поэтому поисковики первые начали работать с распараллеливанием при работе с данными.

Чуть позже подключились различные финансовые организации и ритейл. Сами транзакции у них не такие объемные, но большие данные появляются за счет того, что транзакций очень много.

Количество данных растет вообще у всех. Например, у банков и раньше было много данных, но для них не всегда требовались принципы работы, как с большими. Затем банки стали больше работать с данными клиентов. Стали придумывать более гибкие вклады, кредиты, разные тарифы, стали плотнее анализировать транзакции. Для этого уже требовались быстрые способы работы.

Сейчас банки хотят анализировать не только внутреннюю информацию, но и стороннюю. Они хотят получать большие данные от того же ритейла, хотят знать, на что человек тратит деньги. На основе этой информации они пытаются делать коммерческие предложения.

Сейчас вся информация связывается между собой. Ритейлу, банкам, операторам связи и даже поисковикам — всем теперь интересны данные друг друга.

Чем конкретно занимается ML-специалист

Отвечает Никита Варганов, преподаватель GeekBrains, Senior Data Scientist, руководитель направления по исследованию данных в Сбербанке, Kaggle competitions master.

ML-специалист решает бизнес-задачи клиента с применением алгоритмов машинного обучения. При этом он может брать существующие алгоритмы или разрабатывать новые. Но важно понимать, что в Data Science построение модели – это 10-20% времени проекта. Остальное время уходит на согласование задач, поиск и подготовку данных, составление и приоритизацию гипотез, анализ, внедрение и презентацию полученного решения. Надо быть к этому готовым.

Важно помнить, что оптимизация процессов – не самоцель. В конце концов ML-специалисты помогают бизнесу больше зарабатывать и выводить на рынок новые продукты.

Что делает аналитик данных

Как правило, Data Analyst работает с информационными массивами, самостоятельно выполняя при этом целый набор операций:

  • сбор данных;
  • подготовка данных к анализу (выборка, очистка, сортировка);
  • поиск закономерностей в информационных наборах;
  • визуализация данных для быстрого понимания имеющихся результатов и будущих тенденций;
  • формулирование гипотез по улучшению конкретных бизнес-метрик за счет изменения других показателей.

Все эти задачи необходимы для достижения главной цели аналитика данных – извлечение из массивов информации сведений, ценных бизнесу для принятия оптимальных управленческих решений.

В некоторых компаниях в обязанности аналитика данных также входит их моделирование, т.е. разработка и тестирование моделей машинного обучения (Machine Learning). Однако, в большинстве случаев, Machine Learning является областью ответственности исследователя или ученого по данным (Data Scientist). При более детальном разделении труда машинным обучением занимается отдельный специалист. О работе Data Scientist’а и его профессиональных компетенциях мы рассказываем здесь.

Также стоит отметить, что иногда Data Analyst занимается анализом бизнес-процессов и очень плотно работает с другими ИТ-специалистами при описании потоков и хранилищ корпоративной информации. Таким образом, в область ответственности аналитика данных также входят задачи BusinessIntelligence (BI) и оптимизации производственных процессов.

Data Ananlyst, аналитик данныхб Data Science, Data Mining, Big Dtat, Business Intelligence
Профессиональный портрет аналитика данных

Профессиональные компетенции аналитика данных: что должен знать Data Analyst

Исходя из вышеописанных задач, можно определить следующие области знаний, необходимые для аналитика данных:

  • информационные технологии – методы и средства интеллектуального анализа данных (Data Mining) – языки программирования (R, Python и пр.) и SQL-подобные языки для написания запросов к нереляционным и реляционным базам данных, а также BI-системы, ETL-хранилища и витрины данных типа Tableau, Power BI, QlikView и т.д., а также основы инфраструктуры Apache Hadoop;
  • математика (статистика, теория вероятностей, дискретная математика);
  • системный анализ, управление качеством, проектный менеджмент и методы анализа бизнес-процессов (подходы бережливого производства, SWOT, ABC, PDCA, IDEF, EPC, BPMN, ССП и пр.).

Кроме того, весьма полезны будут прикладные знания и практический опыт, специфичные для предметной области, в которой работает Data Analyst. Например, основы бухучета пригодятся для аналитика данных в банке, а методы маркетинга помогут при анализе информации о потребностях клиентов или оценке новых рынков.

что должен знать аналитик данных data analyst
Области знаний для аналитика данных

Специфика BigData добавляет к этим базовым компетенциям Data Analyst еще навыки работы с озерами данных (Data Lakes), понимание вопросов информационной безопасности и управления данными (Data Governance), а также владение типовыми сценариями цифровизации (цифровой трансформации) и применения технологий больших данных в различных предметных областях (use-cases). Все это и множество других практических знаний для аналитика данных мы рассматриваем на наших курсах обучения и повышения квалификации ИТ-специалистов в лицензированном учебном центре для руководителей, аналитиков, архитекторов, инженеров и исследователей Big Data в Москве:

  • BDAM: Аналитика больших данных для руководителей
  • DPREP: Подготовка данных для Data Mining
  • ARMG: Архитектура Модели Данных
  • DSAV: Анализ данных и визуализация в R

Какие используются инструменты и технологии big data

Поскольку данные хранятся на кластере, для работы с ними нужна особая инфраструктура. Самая популярная экосистема — это Hadoop. В ней может работать очень много разных систем: специальных библиотек, планировщиков, инструментов для машинного обучения и многого другое. Но в первую очередь эта система нужна, чтобы анализировать большие объемы данных за счет распределенных вычислений. 

Например, мы ищем самый популярный твит среди данных разбитых на тысяче серверов. На одном сервере мы бы просто сделали таблицу и все. Здесь мы можем притащить все данные к себе и пересчитать. Но это не правильно, потому что очень долго.

Поэтому есть Hadoop с парадигмами Map Reduce и фреймворком Spark. Вместо того, чтобы тянуть данные к себе, они отправляют к этим данным участки программы. Работа идет параллельно, в тысячу потоков. Потом получается выборка из тысячи серверов на основе которой можно выбрать самый популярный твит.

Map Reduce более старая парадигма, Spark — новее. С его помощью достают данные из кластеров, и в нем же строят модели машинного обучения. 

Список вузов Москвы на Big Data Analyst: специалиста по анализу больших данных

Российский новый университет

экономика; прикладная информатика; прикладная математика и информатика и еще 24 направления

Ср. балл ЕГЭ бюджет 2019от 68 бал.бюджет

Ср. балл ЕГЭ платно 2020от 37.3 бал.платно

Бюджетных мест 2020 52 места бюджет

Платных мест 2020 2 910 места платно

Средний балл ЕГЭ на бюджет в 2019 году от 68

Средний балл ЕГЭ на платные места в 2020 году от 37.3

Количество бюджетных мест в 2020 году 52

Количество платных мест в 2020 году 2 910

Что такое средний проходной балл Всего 89 программ 2 программы для этой профессии

  • от 86 000 / год

    Институт ИнЭИМоскваГосударственный

  • Инженерно-экономический институт

    менеджмент; экономика; прикладная информатика и еще 3 направления

    Ср. балл ЕГЭ бюджет 2020от 73.7 бал.бюджет

    Ср. балл ЕГЭ платно 2020от 40.7 бал.платно

    Бюджетных мест 2020 115 мест бюджет

    Платных мест 2020 2 280 места платно

    Средний балл ЕГЭ на бюджет в 2020 году от 73.7

    Средний балл ЕГЭ на платные места в 2020 году от 40.7

    Количество бюджетных мест в 2020 году 115

    Количество платных мест в 2020 году 2 280

    Что такое средний проходной балл Всего 63 программы 2 программы для этой профессии

  • от 64 000 / год

    МоскваГосударственный

  • Московский технический университет связи и информатики

    инфокоммуникационные технологии и системы связи; прикладная математика; прикладная информатика и еще 11 направлений

    Ср. балл ЕГЭ бюджет 2019от 66.7 бал.бюджет

    Ср. балл ЕГЭ платно 2019от 40 бал.платно

    Бюджетных мест 2020 990 мест бюджет

    Платных мест 2020 2 014 места платно

    Средний балл ЕГЭ на бюджет в 2019 году от 66.7

    Средний балл ЕГЭ на платные места в 2019 году от 40

    Количество бюджетных мест в 2020 году 990

    Количество платных мест в 2020 году 2 014

    Что такое средний проходной балл Всего 55 программ 2 программы для этой профессии

  • от 168 100 / год

    МоскваГосударственный

  • МИРЭА – Российский технологический университет

    программная инженерия; прикладная информатика; прикладная математика и информатика и еще 49 направлений

    Ср. балл ЕГЭ бюджет 2020от 61.7 бал.бюджет

    Ср. балл ЕГЭ платно 2020от 36.3 бал.платно

    Бюджетных мест 2020 2 664 места бюджет

    Платных мест 2020 6 666 мест платно

    Средний балл ЕГЭ на бюджет в 2020 году от 61.7

    Средний балл ЕГЭ на платные места в 2020 году от 36.3

    Количество бюджетных мест в 2020 году 2 664

    Количество платных мест в 2020 году 6 666

    Что такое средний проходной балл Всего 90 программ 8 программ для этой профессии

  • от 85 000 / год

    МоскваГосударственный

  • Государственный университет управления

    менеджмент; экономика; прикладная математика и информатика и еще 11 направлений

    Ср. балл ЕГЭ бюджет 2020от 77 бал.бюджет

    Ср. балл ЕГЭ платно 2020от 42 бал.платно

    Бюджетных мест 2020 512 мест бюджет

    Платных мест 2020 2 655 места платно

    Средний балл ЕГЭ на бюджет в 2020 году от 77

    Средний балл ЕГЭ на платные места в 2020 году от 42

    Количество бюджетных мест в 2020 году 512

    Количество платных мест в 2020 году 2 655

    Что такое средний проходной балл Всего 87 программ 1 программа для этой профессии

  • от 141 500 / год

    Факультет Экономический факультетМоскваГосударственный

  • Экономический факультет

    экономика; менеджмент; реклама и связи с общественностью и еще 1 направление

    Ср. балл ЕГЭ бюджет 2019от 85.3 бал.бюджет

    Ср. балл ЕГЭ платно 2019от 41 бал.платно

    Бюджетных мест 2020 22 места бюджет

    Платных мест 2020 181 место платно

    Средний балл ЕГЭ на бюджет в 2019 году от 85.3

    Средний балл ЕГЭ на платные места в 2019 году от 41

    Количество бюджетных мест в 2020 году 22

    Количество платных мест в 2020 году 181

    Что такое средний проходной балл Всего 20 программ 1 программа для этой профессии

  • от 51 550 / год

    МоскваГосударственный

  • Офлайн-курсы для аналитиков big data

    На базе вузов существуют программы очного обучения. Курс для слушателей, имеющих базовые знания, длится 24 академических часа и стоит 16 тыс. рублей.

    Курсы big data

    Для руководителей самый дорогой ресурс — это время, поэтому они предпочитают обучаться на интенсивах

    Для руководителей, желающих изучить методы и инструменты анализа big data, стоимость трехдневного интенсива начинается от 54 тыс. рублей.

    Онлайн-курсы для аналитиков big data

    Занятия рассчитаны для учащихся с разным уровнем подготовки. Для начинающих существуют курсы big data с нуля, где за 1,5 месяца и 17 тыс. рублей можно постичь азы профессии.

    Углубленный курс может длиться до 1 года и стоить до 150 тыс. рублей. Обучение проводится в формате изучения материала в удобное время, выполнения практических заданий под руководством ментора и сдачи экзамена или дипломной работы.

    Некоторые учебные заведения имеют центры развития карьеры и помогают своим выпускникам найти место стажировки или работу.

    Бесплатное обучение на аналитика big data

    Бесплатные лекции и вебинары в основном дают базовые теоретические знания. Некоторые из них предлагают и практические задания, но не оказывают помощи и консультаций при их выполнении. Существуют и программы с бесплатными учебными материалами, дающие возможность оплатить подписку и получать консультации наставника.

    Как правило, организаторы платного обучения предоставляют возможность бесплатно посмотреть вводную лекцию. Это не дает достаточных знаний для работы, но стимулирует слушателей на покупку полного курса.

    Методы аналитики больших данных

    Для анализа массивов данных используются разные методики:

    1. Инструменты математической статистики (факторный, регрессионный и корреляционный анализ, анализ временных рядов).
    2. Прикладные программы и платформы: Matrix Laboratory, SAS Data Miner, Tableau и др.
    3. Построение математических и имитационных моделей (кластеризация, нейронные сети).
    4. Пространственный анализ, использующий геометрические или топологические данные в массиве.
    5. Визуализация данных.

    В зависимости от типа данных определяется набор инструментов для работы с ними.

    Где набираться опыта самостоятельно

    Python можно подтянуть на Питонтьютор, работы с базой данных — на SQL-EX. Там даются задачи, по которым на практике учатся делать запросы. 

    Высшая математика — Mathprofi. Там можно получить понятную информацию по математическому анализу, статистике и линейной алгебре. А если плохо со школьной программой, то есть сайт youclever.org

    Распределенные же вычисления тренировать получится только на практике. Во-первых для этого нужна инфраструктура, во-вторых алгоритмы могут быстро устаревать. Сейчас постоянно появляется что-то новое. 

    Источники

    • https://postupi.online/professiya/specialist-po-analizu-bolshih-dannyh-big-data/
    • https://geekbrains.ru/posts/zachem-izuchat-mashinnoe-obuchenie-i-kem-potom-rabotat
    • https://geekbrains.ru/posts/gu_big_data_faculty
    • https://www.bigdataschool.ru/bigdata/data-analyst-big-data.html
    • https://msk.postupi.online/professiya/specialist-po-analizu-bolshih-dannyh-big-data/vuzi/
    • https://ostrovrusa.ru/analitik-big-data
    • https://moskva.jobfilter.ru/%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%B0/data-scientist-%D1%81%D0%BF%D0%B5%D1%86%D0%B8%D0%B0%D0%BB%D0%B8%D1%81%D1%82-%D0%BF%D0%BE-%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%BC%D1%83-%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D1%8E
    • https://jobeka.com/vacancies-mashinnoye-obucheniye-moskva
    • https://msk.postupi.online/professiya/specialist-po-mashinnomu-obucheniyu/programmi/
    [свернуть]
    Оцените статью
    Понравилась статья?
    Комментарии (0)
    Комментариев нет, будьте первым кто его оставит

    Комментарии закрыты.