Начните с машинного обучения

catalogue of articles

1 год назад

Нужна помощь в начале работы с прикладным машинным обучением?

Это пошаговые руководства, которые вы искали!

В чем вам нужна помощь?

Основы

Новичкам

Промежуточный

Продвинутый

Самый распространенный вопрос, который мне задают: “Как мне начать? “

Мой лучший совет для начала работы в области машинного обучения состоит из 5 шагов:

Шаг 1: Настройте мышление. Верьте, что вы можете практиковать и применять машинное обучение.

Начинающие: Weka Workbench.
Промежуточный уровень: Python Ecosystem.
Продвинутый уровень: Платформа R.

Подробнее об этом подходе “сверху вниз” см:

Многие из моих студентов, используя этот подход, добились высоких результатов на соревнованиях Kaggle и получили работу в качестве инженеров машинного обучения и специалистов по анализу данных.

Преимуществом машинного обучения являются прогнозы и модели, которые делают прогнозы.

Владеть навыками прикладного машинного обучения означает знать, как последовательно и надежно выдавать высококачественные прогнозы по каждой проблеме. Для этого необходимо следовать систематическому процессу.

Ниже приведен 5-шаговый процесс, следуя которому вы можете последовательно добиваться результатов выше среднего при решении задач прогностического моделирования:

Хорошее краткое изложение этого процесса см. в этих постах:

Вероятность – это математика количественной оценки и использования неопределенности. Она является основой многих областей математики (например, статистики) и имеет решающее значение для прикладного машинного обучения.

Ниже приведен трехэтапный процесс, который вы можете использовать, чтобы быстро освоить вероятность для машинного обучения.

Шаг 1: Узнайте, что такое вероятность.

Вы можете просмотреть все учебные пособия по вероятности здесь. Ниже приведены некоторые из наиболее популярных уроков.

Основы теории вероятности

Теорема Байеса

Распределения вероятностей

Теория информации

Статистические методы – важная базовая область математики, необходимая для достижения более глубокого понимания поведения алгоритмов машинного обучения.

Ниже приведен трехшаговый процесс, который вы можете использовать, чтобы быстро освоить статистические методы машинного обучения.

Шаг 1: Узнайте, что такое статистические методы.

Вы можете просмотреть все посты о статистических методах здесь. Ниже приведены некоторые из наиболее популярных уроков.

Сводная статистика

Тесты статистических гипотез

Методы выборки

Оценочная статистика

Линейная алгебра является важной базовой областью математики, необходимой для более глубокого понимания алгоритмов машинного обучения.

Ниже приведен трехшаговый процесс, который вы можете использовать, чтобы быстро освоить линейную алгебру для машинного обучения.

Шаг 1: Узнайте, что такое линейная алгебра.

Вы можете просмотреть все посты по линейной алгебре здесь. Ниже приведены некоторые из наиболее популярных уроков.

Линейная алгебра в Python

Матрицы

Векторы

Матричная факторизация

Оптимизация является основой всех алгоритмов машинного обучения. Когда мы обучаем модель машинного обучения, она выполняет оптимизацию с заданным набором данных.

Вы можете быстро познакомиться с оптимизацией для машинного обучения за 3 шага.

Шаг 1: Узнайте, что такое оптимизация.

Вы можете просмотреть все посты об оптимизации здесь. Ниже приведены некоторые из наиболее популярных уроков.

Локальная оптимизация

Глобальная оптимизация

Градиентный спуск

Приложения оптимизации

Калькуляция – это скрытая движущая сила успеха многих алгоритмов машинного обучения. Когда мы говорим об оптимизации градиентного спуска в алгоритме машинного обучения, градиент находится с помощью вычислений.

Вы можете познакомиться с исчислением для машинного обучения за 3 шага.

Шаг 1: Узнайте, что такое исчисление.

Вы можете просмотреть все посты по исчислению здесь. Ниже приведена подборка наиболее популярных уроков.

Базовые вычисления

Многомерное исчисление

Вычисления для оптимизации

Приложения вычислений

Python – это лингва франка для проектов машинного обучения. На Python не только создано множество библиотек машинного обучения, но и он эффективно помогает нам быстро и аккуратно завершать проекты машинного обучения. Хорошие навыки программирования на Python позволят вам сделать больше за более короткое время!

Вы можете познакомиться с Python для машинного обучения за 3 шага.

Шаг 1: Изучите язык.

Вы можете посмотреть все посты по Python здесь. Но не пропустите “Python для машинного обучения” (моя книга). Ниже приведена подборка наиболее популярных уроков.

Основной язык

Устранение неполадок

Языковые техники

Библиотеки

Машинное обучение – это алгоритмы машинного обучения.

Вам необходимо знать, какие алгоритмы доступны для решения конкретной задачи, как они работают и как извлечь из них максимальную пользу.

Вот как начать работу с алгоритмами машинного обучения:

Шаг 1: Узнайте о различных типах алгоритмов машинного обучения.

Вы можете просмотреть все посты об алгоритмах машинного обучения здесь. Ниже приведены некоторые из наиболее популярных руководств.

Линейные алгоритмы

Нелинейные алгоритмы

Алгоритмы ансамблей

Как изучать/изучать алгоритмы машинного обучения

Weka – это платформа, которую вы можете использовать, чтобы начать изучать прикладное машинное обучение.

Она имеет графический пользовательский интерфейс, что означает, что программирование не требуется, и предлагает набор самых современных алгоритмов.

Вот как вы можете начать работу с Weka:

Шаг 1: Познакомьтесь с возможностями платформы Weka.

Вы можете просмотреть все посты по машинному обучению Weka здесь. Ниже приведены некоторые из наиболее популярных уроков.

Подготовка данных в Weka

Учебники по алгоритмам Weka

Python – одна из наиболее быстро развивающихся платформ для прикладного машинного обучения.

Вы можете использовать такие инструменты, как pandas и scikit-learn, при разработке и оперативном развертывании вашей модели.

Ниже приведены шаги, которые вы можете использовать для начала работы с машинным обучением на Python:

Шаг 1: Знакомство с Python для машинного обучения

Вы можете просмотреть все посты по машинному обучению на Python здесь. Ниже приведена подборка некоторых из наиболее популярных уроков.

Подготовка данных в Python

Машинное обучение на Python

R – это платформа для статистических вычислений и самая популярная платформа среди профессиональных специалистов по изучению данных.

Она популярна из-за большого количества доступных методов, а также из-за отличных интерфейсов для этих методов, таких как мощный пакет caret.

Вот как начать работу с машинным обучением на R:

Шаг 1: Знакомство с платформой R и причинами ее популярности.

Вы можете просмотреть все посты по машинному обучению на R здесь. Ниже приведены некоторые из наиболее популярных уроков.

Подготовка данных в R

Прикладное машинное обучение в R

Вы можете многое узнать об алгоритмах машинного обучения, разработав их с нуля.

Обучение с помощью кодирования является предпочтительным стилем обучения для многих разработчиков и инженеров.

Вот как начать изучать машинное обучение, кодируя все с нуля.

Шаг 1: Узнайте о преимуществах кодирования алгоритмов с нуля.

(моя книга)

Здесь вы можете просмотреть все посты по Code Algorithms from Scratch. Ниже приведены некоторые из наиболее популярных уроков.

Подготовка данных

Линейные алгоритмы

Оценка алгоритмов

Нелинейные алгоритмы

Прогнозирование временных рядов – важная тема в бизнес-приложениях.

Многие наборы данных содержат временной компонент, но тема временных рядов редко освещается достаточно глубоко с точки зрения машинного обучения.

Вот как начать работу с прогнозированием временных рядов:

Шаг 1: Знакомство с прогнозированием временных рядов.

Вы можете просмотреть все посты о прогнозировании временных рядов здесь. Ниже приведена подборка наиболее популярных уроков.

Учебники по подготовке данных

Учебники по прогнозированию

Эффективность вашей модели прогнозирования зависит только от данных, которые вы используете для ее обучения.

Поэтому подготовка данных может быть самой важной частью вашего проекта прикладного машинного обучения.

Вот как начать подготовку данных для машинного обучения:

Шаг 1: Узнайте о важности подготовки данных.

Вы можете просмотреть все учебники по подготовке данных здесь. Ниже приведены некоторые из наиболее популярных уроков.

Очистка данных

Выбор признаков

Преобразование данных

Сокращение размерности

XGBoost – это высоко оптимизированная реализация градиентных деревьев решений.

Он популярен, поскольку его используют одни из лучших в мире специалистов по обработке данных для победы в соревнованиях по машинному обучению.

Вот как начать работу с XGBoost:

Шаг 1: Знакомство с алгоритмом градиентного бустинга.

Вы можете посмотреть все посты по XGBoost здесь. Ниже приведены некоторые из наиболее популярных уроков.

Основы XGBoost

Настройка XGBoost

Несбалансированная классификация относится к задачам классификации, в которых примеров для одного класса гораздо больше, чем для другого.

Такие задачи часто требуют использования специализированных метрик производительности и алгоритмов обучения, поскольку стандартные метрики и методы ненадежны или не работают полностью.

Вот как вы можете начать работу с несбалансированной классификацией:

Шаг 1: Откройте для себя проблему несбалансированной классификации

Вы можете просмотреть все посты о несбалансированной классификации здесь. Ниже приведена подборка некоторых из наиболее популярных руководств.

Меры производительности

Алгоритмы, чувствительные к затратам

Выборка данных

Продвинутые методы

Глубокое обучение – увлекательная и мощная область.

Самые современные результаты приходят из области глубокого обучения, и это подобласть машинного обучения, которую нельзя игнорировать.

Вот как начать работу с глубоким обучением:

Шаг 1: Узнайте, что такое глубокое обучение.

Вы можете просмотреть все посты о глубоком обучении здесь. Ниже приведены некоторые из наиболее популярных руководств.

Фон

Многослойные перцептроны

Конволюционные нейронные сети

Рекуррентные нейронные сети

Хотя определить и подогнать модель нейронной сети глубокого обучения несложно, добиться хорошей производительности при решении конкретной задачи прогностического моделирования может быть непросто.

Существуют стандартные методы, которые можно использовать для улучшения обучения, уменьшения перегрузки и получения более точных прогнозов с помощью модели глубокого обучения.

Вот как начать работу над улучшением производительности глубокого обучения:

Шаг 1: Откройте для себя проблему глубокого обучения.

Вы можете просмотреть все посты о лучшем глубоком обучении здесь. Ниже приведены некоторые из наиболее популярных уроков.

Лучшее обучение (исправление обучения)

Лучшее обобщение (исправление переборчивости)

Лучшие предсказания (ансамбли)

Советы, рекомендации и ресурсы

Эффективность прогнозирования является наиболее важной задачей при решении многих проблем классификации и регрессии. Алгоритмы ансамблевого обучения объединяют прогнозы от нескольких моделей и разработаны таким образом, чтобы работать лучше, чем любой член ансамбля.

Вот как начать работу по улучшению производительности ансамблевого обучения:

Шаг 1: Знакомство с ансамблевым обучением.

Вы можете просмотреть все посты об ансамблевом обучении здесь. Ниже приведены некоторые из наиболее популярных уроков.

Основы ансамблевого обучения

Складывание ансамблей

Сборка ансамблей

Бустинг ансамблей

Рекуррентные нейронные сети с долговременной памятью (LSTM) разработаны для решения задач предсказания последовательности и являются передовым методом глубокого обучения для решения сложных задач предсказания.

Вот как начать работу с LSTM в Python:

Шаг 1: Откройте для себя перспективы LSTM.

Вы можете просмотреть все посты о LSTM здесь. Ниже приведена подборка наиболее популярных уроков по использованию LSTMs в Python с библиотекой глубокого обучения Keras.

Подготовка данных для LSTM

Поведение LSTM

Моделирование с помощью LSTM

LSTM для временных рядов

Работать с текстовыми данными сложно из-за беспорядочной природы естественного языка.

Текст не является “решенным”, но чтобы получить самые современные результаты при решении сложных задач NLP, необходимо использовать методы глубокого обучения.

Вот как начать работу с глубоким обучением для обработки естественного языка:

Шаг 1: Узнайте, что такое глубокое обучение для NLP.

Вы можете просмотреть все посты о глубоком обучении для НЛП здесь. Ниже приведены некоторые из наиболее популярных руководств.

Модель мешка слов

Языковое моделирование

Суммирование текста

Классификация текста

Вкрапления слов

Создание подписей к фотографиям

Перевод текста

Работа с данными изображений затруднена из-за пропасти между необработанными пикселями и смыслом изображений.

Проблема компьютерного зрения не решена, но для получения самых современных результатов в таких сложных задачах компьютерного зрения, как обнаружение объектов и распознавание лиц, вам понадобятся методы глубокого обучения.

Вот как начать работу с глубоким обучением для компьютерного зрения:

Шаг 1: Узнайте, что такое глубокое обучение для компьютерного зрения.

Вы можете просмотреть все посты о глубоком обучении для компьютерного зрения здесь. Ниже приведены некоторые из наиболее популярных уроков.

Обработка данных изображения

Дополнение данных изображения

Классификация изображений

Подготовка данных изображения

Основы работы с конволюционными нейронными сетями

Распознавание объектов

Нейронные сети глубокого обучения способны автоматически обучать произвольные сложные отображения от входов к выходам и поддерживать несколько входов и выходов.

Такие методы, как MLPs, CNNs и LSTMs, многообещающе подходят для прогнозирования временных рядов.

Вот как начать использовать глубокое обучение для прогнозирования временных рядов:

Шаг 1: Узнайте о перспективах (и ограничениях) глубокого обучения для временных рядов.

Вы можете просмотреть все посты о глубоком обучении для прогнозирования временных рядов здесь. Ниже представлены некоторые из наиболее популярных руководств.

Прогнозирование тенденций и сезонности (одномерное)

Распознавание человеческой активности (многомерная классификация)

Прогнозирование потребления электроэнергии (многомерная, многошаговая)

Типы моделей

Временные ряды Примеры

Прогнозирование загрязнения воздуха (многомерная, многошаговая)

Генеративные адверсарные сети, или сокращенно ГАС, – это подход к генеративному моделированию с использованием методов глубокого обучения, таких как сверточные нейронные сети.

GANs – это захватывающая и быстро меняющаяся область, которая оправдывает надежды генеративных моделей в их способности генерировать реалистичные примеры в ряде проблемных областей, в частности, в задачах перевода изображений с одного языка на другой.

Вот как начать работу с глубоким обучением для генеративных адверсарных сетей:

Шаг 1: Откройте для себя перспективы GAN для генеративного моделирования.

Здесь вы можете просмотреть все учебники по генеративным адверсарным сетям. Ниже приведены некоторые из наиболее популярных уроков.

Основы GAN

Функции потерь GAN

Разработка простых моделей GAN

GAN для перевода изображений

Механизмы внимания – это методы, изобретенные для решения проблемы, когда рекуррентные нейронные сети не могли хорошо работать с длинными последовательностями входных данных. Мы узнали, что сам механизм внимания может быть использован в качестве строительного блока нейронных сетей, и поэтому теперь у нас есть архитектура трансформатора.

Механизмы внимания и трансформаторные модели показывают потрясающие результаты, особенно в обработке естественного языка. Существуют примеры использования трансформаторных моделей в том или ином виде, которые заставляют компьютеры понимать человеческий язык и выполнять такие задачи, как перевод или резюмирование абзаца, с человекоподобным качеством.

Вот как начать разбираться в механизмах внимания и трансформаторах:

Шаг 1: Узнайте о том, что такое внимание и что оно может делать.

Вы можете просмотреть все учебники по механизмам внимания и трансформаторам здесь. Ниже приведены некоторые из наиболее популярных уроков.