Поделиться через


Databricks Runtime 13.2 для Машинное обучение (EoS)

Примечание.

Поддержка этой версии databricks Runtime закончилась. Сведения о дате окончания поддержки см . в журнале завершения поддержки. Все поддерживаемые версии среды выполнения Databricks см. в заметках о выпуске Databricks Runtime и совместимости.

Databricks Runtime 13.2 для Машинное обучение предоставляет готовую среду для машинного обучения и обработки и анализа данных на основе Databricks Runtime 13.2 (EoS). Databricks Runtime ML содержит множество популярных библиотек машинного обучения, включая TensorFlow, PyTorch и XGBoost. Databricks Runtime ML включает AutoML – средство для автоматического обучения конвейеров машинного обучения. Databricks Runtime ML также поддерживает распределенное углубленное обучение с использованием Horovod.

Дополнительные сведения, включая инструкции по созданию кластера Databricks Runtime ML, см. в статье ИИ и Машинное обучение в Databricks.

Новые функции и внесенные улучшения

Databricks Runtime 13.2 ML построен на основе Databricks Runtime 13.2. Сведения о новых возможностях Databricks Runtime 13.2, включая Apache Spark MLlib и SparkR, см. в заметках о выпуске Databricks Runtime 13.2 (EoS).

Изменения в Хранилище компонентов Databricks

  • Минимальная требуемая mlflow-skinny версия теперь — 2.4.0.
  • Создание набора обучения завершается ошибкой, если указанный кадр данных не содержит все необходимые ключи подстановки.

Системная среда

Системная среда в Databricks Runtime 13.2 ML отличается от Databricks Runtime 13.2 следующим образом:

Databricks Runtime 13.2 ML включает XGBoost 1.7.3, который не поддерживает кластеры GPU с возможностями вычислений 5.2 и ниже.

Библиотеки

В следующих разделах перечислены библиотеки, включенные в Databricks Runtime 13.2 ML, которые отличаются от библиотек, включенных в Databricks Runtime 13.2.

В этом разделе рассматриваются следующие вопросы.

Библиотеки верхнего уровня

Databricks Runtime 13.2 ML включает следующие библиотеки верхнего уровня:

Библиотеки Python

Databricks Runtime 13.2 ML использует Virtualenv для управления пакетами Python и включает множество популярных пакетов машинного обучения.

Помимо пакетов, указанных в следующих разделах, Databricks Runtime 13.2 ML также включает следующие пакеты:

  • Hyperopt 0.2.7+db3
  • sparkdl 3.0.0_db1
  • automl 1.19.0

Чтобы воспроизвести среду Python среды выполнения Databricks в локальной виртуальной среде Python, скачайте файл requirements-13.2.txt и запустите pip install -r requirements-13.2.txtего. Эта команда устанавливает все библиотеки открытый код, которые использует Databricks Runtime ML, но не устанавливает библиотеки, разработанные Databricks, например databricks-automldatabricks-feature-store, или вилку hyperoptDatabricks.

Библиотеки Python в кластерах CPU

Библиотека Версия Библиотека Версия Библиотека Версия
absl-py 1.0.0 accelerate 0.19.0 aiohttp 3.8.4
aiosignal 1.3.1 appdirs 1.4.4 argon2-cffi 21.3.0
argon2-cffi-bindings 21.2.0 astor 0.8.1 asttokens 2.2.1
astunparse 1.6.3 async-timeout 4.0.2 attrs 21.4.0
аудиопоток 3.0.0 azure-core 1.27.1 azure-cosmos 4.3.1b1
azure-storage-blob 12.17.0b1 azure-storage-file-datalake 12.11.0 backcall 0.2.0
bcrypt 3.2.0 beautifulsoup4 4.11.1 black 22.6.0
bleach 4.1.0 blinker 1.4 blis 0.7.9
boto3 1.24.28 botocore 1.27.28 cachetools 4.2.4
catalogue 2.0.8 кодировщики категорий 2.6.0 certifi 2022.9.14
cffi 1.15.1 chardet 4.0.0 charset-normalizer 2.0.4
щелчок 8.0.4 cloudpickle 2.0.0 cmdstanpy 1.1.0
сласти 0.0.4 configparser 5.2.0 convertdate 2.4.0
криптография 37.0.1 cycler 0.11.0 cymem 2.0.7
Cython 0.29.32 дацит 1.8.1 databricks-automl-runtime 0.2.16
databricks-cli 0.17.7 databricks-feature-store 0.13.1 databricks-sdk 0.1.6
dataclasses-json 0.5.8 наборы данных 2.12.0 dbl-tempo 0.1.23
dbus-python 1.2.18 debugpy 1.5.1 decorator 5.1.1
defusedxml 0.7.1 dill 0.3.4 diskcache 5.6.1
distlib 0.3.6 docstring-to-markdown 0,12 entrypoints 0,4
ephem 4.1.4 evaluate 0.4.0 executing 1.2.0
facets-overview 1.0.3 fastjsonschema 2.17.1 fasttext 0.9.2
filelock 3.6.0 Flask 1.1.2+db1 flatbuffers 23.5.26
шрифтовые инструменты 4.25.0 замороженный список 1.3.3 fsspec 2022.7.1
будущее 0.18.2 gast 0.4.0 gitdb 4.0.10
GitPython 3.1.27 google-api-core 2.8.2 google-auth 1.33.0
google-auth-oauthlib 0.4.6 google-cloud-core 2.3.2 google-cloud-storage 2.9.0
google-crc32c 1.5.0 google-pasta 0.2.0 google-resumable-media 2.5.0
googleapis-common-protos 1.56.4 greenlet 1.1.1 grpcio 1.48.1
grpcio-status 1.48.1 gunicorn 20.1.0 gviz-api 1.10.0
h5py 3.7.0 holidays 0.25 horovod 0.28.0
htmlmin 0.1.12 httplib2 0.20.2 huggingface-hub 0.15.1
idna 3,3 ImageHash 4.3.1 imbalanced-learn 0.8.1
importlib-metadata 4.11.3 importlib-resources 5.12.0 ipykernel 6.17.1
ipython 8.10.0 ipython-genutils 0.2.0 ipywidgets 7.7.2
isodate 0.6.1 itsdangerous 2.0.1 jedi 0.18.1
jeepney 0.7.1 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.2.0 joblibspark 0.5.1 jsonschema 4.16.0
jupyter-client 7.3.4 jupyter_core 4.11.2 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.11.0 нажатие клавиш 23.5.0
kiwisolver 1.4.2 korean-lunar-calendar 0.3.1 langchain 0.0.181
langcodes 3.3.0 launchpadlib 1.10.16 lazr.restfulclient 0.14.4
lazr.uri 1.0.6 lazy_loader 0,2 libclang 15.0.6.1
librosa 0.10.0 lightgbm; 3.3.5 llvmlite 0.38.0
LunarCalendar 0.0.9 Mako 1.2.0 Markdown 3.3.4
MarkupSafe 2.0.1 зефир 3.19.0 marshmallow-enum 1.5.1
matplotlib 3.5.2 matplotlib-inline 0.1.6 Маккейб 0.7.0
mistune 0.8.4 mleap 0.20.0 mlflow-skinny 2.4.1
more-itertools 8.10.0 msgpack 1.0.5 multidict 6.0.4
multimethod 1.9.1 многопроцессная обработка 0.70.12.2 murmurhash 1.0.9
mypy-extensions 0.4.3 nbclient 0.5.13 nbconvert 6.4.4
nbformat 5.5.0 nest-asyncio 1.5.5 networkx 2.8.4
ninja 1.11.1 nltk 3,7 nodeenv 1.8.0
записная книжка 6.4.12 numba 0.55.1 numexpr 2.8.4
numpy 1.21.5 oauthlib 3.2.0 openai 0.27.7
openapi-schema-pydantic 1.2.4 opt-einsum 3.3.0 во внешнем виде 21,3
pandas 1.4.4 pandocfilters 1.5.0 paramiko 2.9.2
parso 0.8.3 pathspec 0.9.0 pathy 0.10.1
patsy 0.5.2 petastorm 0.12.1 pexpect 4.8.0
phik 0.12.3 pickleshare 0.7.5 Pillow 9.2.0
pip 22.2.2 platformdirs 2.5.2 график 5.9.0
pluggy 1.0.0 pmdarima 2.0.3 pooch 1.7.0
preshed 3.0.8 prometheus-client 0.14.1 prompt-toolkit 3.0.36
пророк 1.1.3 protobuf 3.19.4 psutil 5.9.0
psycopg2 2.9.3 ptyprocess 0.7.0 pure-eval 0.2.2
pyarrow 8.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.10.4 pycparser 2.21 pydantic 1.10.6
pyflakes 3.0.1 Pygments 2.11.2 PyGObject 3.42.1
PyJWT 2.3.0 PyMeeus 0.5.12 PyNaCl 1.5.0
pyodbc 4.0.32 pyparsing 3.0.9 pyright 1.1.294
pyrsistent 0.18.0 pytesseract 0.3.10 python-dateutil 2.8.2
python-editor 1.0.4 python-lsp-jsonrpc 1.0.0 python-lsp-server 1.7.1
pytoolconfig 1.2.2 pytz 2022.1 PyWavelets 1.3.0
PyYAML 6,0 pyzmq 23.2.0 regex 2022.7.9
requests 2.28.1 requests-oauthlib 1.3.1 Ответы на запросы 0.18.0
верёвка 1.7.0 rsa 4,9 s3transfer 0.6.0
scikit-learn 1.1.1 scipy 1.9.1 мореборн 0.11.2
SecretStorage 3.3.1 Send2Trash 1.8.0 преобразователи предложений 2.2.2
предложение 0.1.99 setuptools 63.4.1 shap 0.41.0
simplejson 3.17.6 six 1.16.0 Среза 0.0.7
smart-open 5.2.1 smmap 5.0.0 soundfile 0.12.1
soupsieve 2.3.1 soxr 0.3.5 spacy 3.5.3
spacy-legacy 3.0.12 spacy-loggers 1.0.4 spark-tensorflow-distributor 1.0.0
SQLAlchemy 1.4.39 sqlparse 0.4.2 srsly 2.4.6
ssh-import-id 5,11 stack-data 0.6.2 statsmodels 0.13.2
tabulate 0.8.10 tangled-up-in-unicode 0.2.0 tenacity 8.1.0
tensorboard 2.11.0 tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.11.2
tensorboard-plugin-wit 1.8.1 tensorflow-cpu 2.11.0 tensorflow-estimator 2.11.0
tensorflow-io-gcs-filesystem 0.32.0 termcolor 2.3.0 terminado 0.13.1
testpath 0.6.0 thinc 8.1.10 threadpoolctl 2.2.0
тиктокен 0.4.0 tokenize-rt 4.2.1 токенизаторы 0.13.3
tomli 2.0.1 torch 1.13.1+ЦП torchvision 0.14.1+ЦП
tornado 6.1 tqdm 4.64.1 traitlets 5.1.1
Трансформаторы 4.29.2 typeguard 2.13.3 typer 0.7.0
ввод и проверка 0.9.0 typing_extensions 4.3.0 ujson 5.4.0
unattended-upgrades 0,1 urllib3 1.26.11 virtualenv 20.16.3
visions 0.7.5 wadllib 1.3.6 wasabi 1.1.2
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.58.0
Werkzeug 2.0.3 whatthepatch 1.0.2 wheel 0.37.1
widgetsnbextension 3.6.1 wordcloud 1.9.2 wrapt 1.14.1
XGBoost 1.7.5 xxhash 3.2.0 yapf 0.31.0
yarl 1.9.2 ydata-profiling 4.2.0 zipp 3.8.0

Библиотеки Python в кластерах GPU

Библиотека Версия Библиотека Версия Библиотека Версия
absl-py 1.0.0 accelerate 0.19.0 aiohttp 3.8.4
aiosignal 1.3.1 appdirs 1.4.4 argon2-cffi 21.3.0
argon2-cffi-bindings 21.2.0 astor 0.8.1 asttokens 2.2.1
astunparse 1.6.3 async-timeout 4.0.2 attrs 21.4.0
аудиопоток 3.0.0 azure-core 1.27.1 azure-cosmos 4.3.1b1
azure-storage-blob 12.17.0b1 azure-storage-file-datalake 12.11.0 backcall 0.2.0
bcrypt 3.2.0 beautifulsoup4 4.11.1 black 22.6.0
bleach 4.1.0 blinker 1.4 blis 0.7.9
boto3 1.24.28 botocore 1.27.28 cachetools 4.2.4
catalogue 2.0.8 кодировщики категорий 2.6.0 certifi 2022.9.14
cffi 1.15.1 chardet 4.0.0 charset-normalizer 2.0.4
щелчок 8.0.4 cloudpickle 2.0.0 cmdstanpy 1.1.0
сласти 0.0.4 configparser 5.2.0 convertdate 2.4.0
криптография 37.0.1 cycler 0.11.0 cymem 2.0.7
Cython 0.29.32 дацит 1.8.1 databricks-automl-runtime 0.2.16
databricks-cli 0.17.7 databricks-feature-store 0.13.1 databricks-sdk 0.1.6
dataclasses-json 0.5.8 наборы данных 2.12.0 dbl-tempo 0.1.23
dbus-python 1.2.18 debugpy 1.5.1 decorator 5.1.1
defusedxml 0.7.1 dill 0.3.4 diskcache 5.6.1
distlib 0.3.6 docstring-to-markdown 0,12 einops 0.6.1
entrypoints 0,4 ephem 4.1.4 evaluate 0.4.0
executing 1.2.0 facets-overview 1.0.3 fastjsonschema 2.17.1
fasttext 0.9.2 filelock 3.6.0 flash-attn 1.0.5
Flask 1.1.2+db1 flatbuffers 23.5.26 шрифтовые инструменты 4.25.0
замороженный список 1.3.3 fsspec 2022.7.1 будущее 0.18.2
gast 0.4.0 gitdb 4.0.10 GitPython 3.1.27
google-api-core 2.8.2 google-auth 1.33.0 google-auth-oauthlib 0.4.6
google-cloud-core 2.3.2 google-cloud-storage 2.9.0 google-crc32c 1.5.0
google-pasta 0.2.0 google-resumable-media 2.5.0 googleapis-common-protos 1.56.4
greenlet 1.1.1 grpcio 1.48.1 grpcio-status 1.48.1
gunicorn 20.1.0 gviz-api 1.10.0 h5py 3.7.0
holidays 0.25 horovod 0.28.0 htmlmin 0.1.12
httplib2 0.20.2 huggingface-hub 0.15.1 idna 3,3
ImageHash 4.3.1 imbalanced-learn 0.8.1 importlib-metadata 4.11.3
importlib-resources 5.12.0 ipykernel 6.17.1 ipython 8.10.0
ipython-genutils 0.2.0 ipywidgets 7.7.2 isodate 0.6.1
itsdangerous 2.0.1 jedi 0.18.1 jeepney 0.7.1
Jinja2 2.11.3 jmespath 0.10.0 joblib 1.2.0
joblibspark 0.5.1 jsonschema 4.16.0 jupyter-client 7.3.4
jupyter_core 4.11.2 jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0
keras 2.11.0 нажатие клавиш 23.5.0 kiwisolver 1.4.2
korean-lunar-calendar 0.3.1 langchain 0.0.181 langcodes 3.3.0
launchpadlib 1.10.16 lazr.restfulclient 0.14.4 lazr.uri 1.0.6
lazy_loader 0,2 libclang 15.0.6.1 librosa 0.10.0
lightgbm; 3.3.5 llvmlite 0.38.0 LunarCalendar 0.0.9
Mako 1.2.0 Markdown 3.3.4 MarkupSafe 2.0.1
зефир 3.19.0 marshmallow-enum 1.5.1 matplotlib 3.5.2
matplotlib-inline 0.1.6 Маккейб 0.7.0 mistune 0.8.4
mleap 0.20.0 mlflow-skinny 2.4.1 more-itertools 8.10.0
msgpack 1.0.5 multidict 6.0.4 multimethod 1.9.1
многопроцессная обработка 0.70.12.2 murmurhash 1.0.9 mypy-extensions 0.4.3
nbclient 0.5.13 nbconvert 6.4.4 nbformat 5.5.0
nest-asyncio 1.5.5 networkx 2.8.4 ninja 1.11.1
nltk 3,7 nodeenv 1.8.0 записная книжка 6.4.12
numba 0.55.1 numexpr 2.8.4 numpy 1.21.5
oauthlib 3.2.0 openai 0.27.7 openapi-schema-pydantic 1.2.4
opt-einsum 3.3.0 во внешнем виде 21,3 pandas 1.4.4
pandocfilters 1.5.0 paramiko 2.9.2 parso 0.8.3
pathspec 0.9.0 pathy 0.10.1 patsy 0.5.2
petastorm 0.12.1 pexpect 4.8.0 phik 0.12.3
pickleshare 0.7.5 Pillow 9.2.0 pip 22.2.2
platformdirs 2.5.2 график 5.9.0 pluggy 1.0.0
pmdarima 2.0.3 pooch 1.7.0 preshed 3.0.8
prompt-toolkit 3.0.36 пророк 1.1.3 protobuf 3.19.4
psutil 5.9.0 psycopg2 2.9.3 ptyprocess 0.7.0
pure-eval 0.2.2 pyarrow 8.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pybind11 2.10.4 pycparser 2.21
pydantic 1.10.6 pyflakes 3.0.1 Pygments 2.11.2
PyGObject 3.42.1 PyJWT 2.3.0 PyMeeus 0.5.12
PyNaCl 1.5.0 pyodbc 4.0.32 pyparsing 3.0.9
pyright 1.1.294 pyrsistent 0.18.0 pytesseract 0.3.10
python-dateutil 2.8.2 python-editor 1.0.4 python-lsp-jsonrpc 1.0.0
python-lsp-server 1.7.1 pytoolconfig 1.2.2 pytz 2022.1
PyWavelets 1.3.0 PyYAML 6,0 pyzmq 23.2.0
regex 2022.7.9 requests 2.28.1 requests-oauthlib 1.3.1
Ответы на запросы 0.18.0 верёвка 1.7.0 rsa 4,9
s3transfer 0.6.0 scikit-learn 1.1.1 scipy 1.9.1
мореборн 0.11.2 SecretStorage 3.3.1 Send2Trash 1.8.0
преобразователи предложений 2.2.2 предложение 0.1.99 setuptools 63.4.1
shap 0.41.0 simplejson 3.17.6 six 1.16.0
Среза 0.0.7 smart-open 5.2.1 smmap 5.0.0
soundfile 0.12.1 soupsieve 2.3.1 soxr 0.3.5
spacy 3.5.3 spacy-legacy 3.0.12 spacy-loggers 1.0.4
spark-tensorflow-distributor 1.0.0 SQLAlchemy 1.4.39 sqlparse 0.4.2
srsly 2.4.6 ssh-import-id 5,11 stack-data 0.6.2
statsmodels 0.13.2 tabulate 0.8.10 tangled-up-in-unicode 0.2.0
tenacity 8.1.0 tensorboard 2.11.0 tensorboard-data-server 0.6.1
tensorboard-plugin-profile 2.11.2 tensorboard-plugin-wit 1.8.1 tensorflow 2.11.0
tensorflow-estimator 2.11.0 tensorflow-io-gcs-filesystem 0.32.0 termcolor 2.3.0
terminado 0.13.1 testpath 0.6.0 thinc 8.1.10
threadpoolctl 2.2.0 тиктокен 0.4.0 tokenize-rt 4.2.1
токенизаторы 0.13.3 tomli 2.0.1 torch 1.13.1+cu117
torchvision 0.14.1+cu117 tornado 6.1 tqdm 4.64.1
traitlets 5.1.1 Трансформаторы 4.29.2 typeguard 2.13.3
typer 0.7.0 ввод и проверка 0.9.0 typing_extensions 4.3.0
ujson 5.4.0 unattended-upgrades 0,1 urllib3 1.26.11
virtualenv 20.16.3 visions 0.7.5 wadllib 1.3.6
wasabi 1.1.2 wcwidth 0.2.5 webencodings 0.5.1
websocket-client 0.58.0 Werkzeug 2.0.3 whatthepatch 1.0.2
wheel 0.37.1 widgetsnbextension 3.6.1 wordcloud 1.9.2
wrapt 1.14.1 XGBoost 1.7.5 xxhash 3.2.0
yapf 0.31.0 yarl 1.9.2 ydata-profiling 4.2.0
zipp 3.8.0

Библиотеки R

Библиотеки R идентичны библиотекам R в Databricks Runtime 13.2.

Библиотеки Java и Scala (кластер Scala 2.12)

Помимо библиотек Java и Scala в Databricks Runtime 13.2, Databricks Runtime 13.2 ML содержит следующие JAR:

Кластеры ЦП

ИД группы Идентификатор артефакта Версия
com.typesafe.akka akka-actor_2.12 2.5.23
ml.dmlc xgboost4j-spark_2.12 1.7.3
ml.dmlc xgboost4j_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db2-spark3.4
org.mlflow mlflow-client 2.4.1
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Кластеры GPU

ИД группы Идентификатор артефакта Версия
com.typesafe.akka akka-actor_2.12 2.5.23
ml.dmlc xgboost4j-gpu_2.12 1.7.3
ml.dmlc xgboost4j-spark-gpu_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db2-spark3.4
org.mlflow mlflow-client 2.4.1
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0