Обучение моделей машинного обучения с помощью API AutoML Для Azure Databricks AutoML
В этой статье показано, как обучить модель с помощью Azure Databricks AutoML с помощью API Python AutoML. Дополнительные сведения см . в справочнике по API Python AutoML Для Azure Databricks.
API предоставляет функции для запуска классификации, регрессии и прогнозирования запусков AutoML. Каждый вызов функции обучает набор моделей и создает пробную записную книжку для каждой модели.
См . требования к экспериментам AutoML.
Настройка эксперимента с помощью API AutoML
В следующих шагах обычно описывается настройка эксперимента AutoML с помощью API:
Создайте записную книжку и подключите ее к кластеру под управлением Databricks Runtime ML.
Определите таблицу, которую вы хотите использовать из существующего источника данных или отправьте файл данных в DBFS и создайте таблицу.
Чтобы запустить запуск AutoML, используйте
automl.regress()
илиautoml.classify()
функцию и передайте таблицу вместе с другими параметрами обучения. Дополнительные сведения о всех функциях и параметрах см . в справочнике по API Python Для Azure Databricks AutoML.Например:
summary = automl.regress(dataset=train_pdf, target_col="col_to_predict")
После начала выполнения AutoML в консоли появляется URL-адрес эксперимента MLflow. Используйте этот URL-адрес для мониторинга хода выполнения. Обновите эксперимент MLflow, чтобы просмотреть пробные запуски по мере их завершения.
После завершения выполнения AutoML сделайте следующее.
- Используйте ссылки в сводке выходных данных, чтобы перейти к эксперименту MLflow или записной книжке, создающей лучшие результаты.
- Используйте ссылку на записную книжку для изучения данных, чтобы получить аналитические сведения о данных, передаваемых в AutoML. Вы также можете подключить эту записную книжку к тому же кластеру и повторно запустить ее, чтобы воспроизвести результаты или выполнить дополнительный анализ данных.
- Используйте сводный объект, возвращенный из вызова AutoML, чтобы получить дополнительные сведения об испытаниях или загрузить модель, обученную данным пробным запуском. Дополнительные сведения об объекте AutoMLSummary.
- Клонируйте любую созданную записную книжку из пробных версий и повторно запустите ее, подключив ее к одному кластеру, чтобы воспроизвести результаты. Вы также можете внести необходимые изменения, повторно запустить их для обучения дополнительных моделей и войти в тот же эксперимент.
Импорт записной книжки
Чтобы импортировать записную книжку, сохраненную в качестве артефакта MLflow, используйте databricks.automl.import_notebook
API Python. Дополнительные сведения см. в разделе "Импорт записной книжки"
Регистрация и развертывание модели
Вы можете зарегистрировать и развернуть обученную модель AutoML так же, как и любую зарегистрированную модель в реестре моделей MLflow; см. сведения о журналах, загрузке, регистрации и развертывании моделей MLflow.
Без имени модуля pandas.core.indexes.numeric
При обслуживании модели, созданной с помощью AutoML с обслуживанием моделей, может возникнуть ошибка: No module named 'pandas.core.indexes.numeric
Это связано с несовместимой pandas
версией между AutoML и средой конечной точки обслуживания модели. Эту ошибку можно устранить, выполнив скрипт add-pandas-dependency.py. Скрипт изменяет requirements.txt
и conda.yaml
для модели журнала, чтобы включить соответствующую pandas
версию зависимостей: pandas==1.5.3
- Измените скрипт, чтобы включить
run_id
запуск MLflow, в котором была зарегистрирована модель. - Повторно зарегистрируйте модель в реестре моделей MLflow.
- Попробуйте использовать новую версию модели MLflow.
Примеры записных книжек
Ознакомьтесь с этими записными книжками, чтобы приступить к работе с AutoML.
В следующей записной книжке показано, как выполнять классификацию с помощью AutoML.
Пример записной книжки классификации AutoML
В следующей записной книжке показано, как выполнить регрессию с помощью AutoML.
Пример записной книжки регрессии AutoML
В следующей записной книжке показано, как выполнять прогнозирование с помощью AutoML.
Пример записной книжки прогнозирования AutoML
Следующие шаги
Справочник по API Python Для AutoML Для Azure Databricks.