Что такое AutoML?

Статья
07/04/2024

Databricks AutoML упрощает процесс применения машинного обучения к наборам данных путем автоматического поиска оптимальной конфигурации алгоритма и гиперпараметров.

Укажите набор данных и укажите тип проблемы машинного обучения, а затем AutoML выполняет следующие действия:

Очищает и подготавливает данные.
Оркеструет настройку распределенной модели обучения и гиперпараметра в нескольких алгоритмах.
Находит лучшую модель с помощью алгоритмов оценки открытый код из scikit-learn, xgboost, LightGBM, Пророка и ARIMA.
Отображает результаты. AutoML также создает записные книжки исходного кода для каждой пробной версии, позволяя просматривать, воспроизводить и изменять код по мере необходимости.

Приступая к работе с экспериментами AutoML с помощью пользовательского интерфейса с низким кодом или API Python.

Требования

Databricks Runtime 9.1 ML или более поздней версии. Для общедоступной версии Databricks Runtime 10.4 LTS ML или более поздней.
- Для прогнозирования временных рядов используйте Databricks Runtime 10.0 ML или более поздней версии.
- При использовании Databricks Runtime 9.1 LTS ML и более поздних версий AutoML autoML зависит от databricks-automl-runtime пакета, который содержит компоненты, полезные за пределами AutoML, а также помогает упростить записные книжки, созданные при обучении AutoML. databricks-automl-runtime доступен в PyPI.
Дополнительные библиотеки, отличные от предварительно установленных в Databricks Runtime для Машинное обучение, не должны быть установлены в кластере.
- Любое изменение (удаление, обновление или понижение) до существующих версий библиотек приводит к сбоям при выполнении из-за несовместимости.
AutoML несовместим с кластерами режима общего доступа.
Чтобы использовать каталог Unity с AutoML, режим доступа к кластеру должен быть одним пользователем, и вы должны быть назначенным одним пользователем кластера.
Чтобы получить доступ к файлам в рабочей области, необходимо открыть сетевые порты 1017 и 1021 для экспериментов AutoML. Чтобы открыть эти порты или убедиться, что они открыты, просмотрите конфигурацию брандмауэра и правила группы безопасности облака облака или обратитесь к локальному администратору облака. Дополнительные сведения о настройке и развертывании рабочей области см. в статье "Создание рабочей области".

Алгоритмы AutoML

Databricks AutoML обучает и оценивает модели на основе алгоритмов в следующей таблице.

Примечание.

Для моделей классификации и регрессии дерево принятия решений, случайные леса, логистическая регрессия и линейная регрессия с алгоритмами градиента стохастического градиента основаны на Scikit-learn.

Classification models (Модели классификации)	Модели регрессии	Модели прогнозирования
Деревья принятия решений	Деревья принятия решений	Prophet
Случайные леса	Случайные леса	Auto-ARIMA (доступно в Databricks Runtime 10.3 ML и более поздних версий).
Логистическая регрессия	Линейная регрессия с использованием стохастического градиентного спуска
XGBoost	XGBoost
LightGBM	LightGBM

Создание пробной записной книжки

AutoML создает записные книжки исходного кода за пробными версиями, чтобы вы могли просматривать, воспроизводить и изменять код по мере необходимости.

Для экспериментов прогнозирования записные книжки, созданные autoML, автоматически импортируются в рабочую область для всех пробных версий эксперимента.

Для экспериментов классификации и регрессии записные книжки, созданные AutoML для изучения данных, и лучшие пробные версии эксперимента автоматически импортируются в рабочую область. Созданные записные книжки для других пробных версий экспериментов сохраняются в виде артефактов MLflow в DBFS вместо автоматического импорта в рабочую область. Для всех пробных версий, кроме лучшей пробной версии, notebook_path не заданы и notebook_url в TrialInfo API Python. Если вам нужно использовать эти записные книжки, их можно импортировать вручную в рабочую область с помощью пользовательского интерфейса эксперимента AutoML или databricks.automl.import_notebook API Python.

Если вы используете только записную книжку для изучения данных или лучшую пробную записную книжку, созданную autoML, столбец Source в пользовательском интерфейсе эксперимента AutoML содержит ссылку на созданную записную книжку для лучшей пробной версии.

Если в пользовательском интерфейсе эксперимента AutoML используются другие созданные записные книжки, они не импортируются в рабочую область автоматически. Записные книжки можно найти, щелкнув каждый запуск MLflow. Записная книжка IPython сохраняется в разделе артефактов страницы запуска. Эту записную книжку можно скачать и импортировать в рабочую область, если скачивание артефактов включено администраторами рабочей области.

Значения Шепли (SHAP) для объяснимости модели

Примечание.

Для MLR 11.1 и ниже диаграммы SHAP не создаются, если набор данных содержит datetime столбец.

Записные книжки, созданные при выполнениях классификации и регрессии AutoML, содержат код для вычисления значений Шепли. Значения Шепли основаны на теории игр и оценивают важность каждого признака для прогнозов модели.

Записные книжки AutoML вычисляют значения Shapley с помощью пакета SHAP. Так как эти вычисления являются очень интенсивными в памяти, вычисления по умолчанию не выполняются.

Чтобы вычислить и отобразить значения Шепли, выполните следующие действия.

Перейдите в раздел "Важность компонентов" в записной книжке, созданной с помощью AutoML.
Задайте shap_enabled = True.
Повторно запустите эту записную книжку.

Поделиться через

Что такое AutoML?

Требования

Алгоритмы AutoML

Создание пробной записной книжки

Значения Шепли (SHAP) для объяснимости модели

Следующие шаги

Обратная связь

Дополнительные ресурсы