Поделиться через


Изучение данных в базе данных зеркало с помощью записных книжек

Вы можете изучить данные, реплика полученные из зеркало базы данных с помощью запросов Spark в записных книжках.

Записные книжки — это мощный элемент кода для разработки заданий Apache Spark и экспериментов машинного обучения с данными. Записные книжки в Fabric Lakehouse можно использовать для изучения зеркало таблиц.

Необходимые компоненты

Создание ярлыка

Сначала необходимо создать ярлык из зеркало таблиц в Lakehouse, а затем создать записные книжки с помощью запросов Spark в Lakehouse.

  1. На портале Fabric откройте Инжиниринг данных.

  2. Если у вас еще нет созданного Lakehouse, выберите Lakehouse и создайте новый Lakehouse , предоставив ему имя.

  3. Выберите "Получить данные " -> Создать ярлык".

  4. Выберите Microsoft OneLake.

  5. Все зеркало базы данных можно просмотреть в рабочей области Fabric.

  6. Выберите зеркало базу данных, которую вы хотите добавить в Lakehouse, в качестве ярлыка.

  7. Выберите нужные таблицы из зеркало базы данных.

  8. Нажмите кнопку "Далее" и "Создать".

  9. В Обозреватель теперь можно просмотреть выбранные данные таблицы в Lakehouse. Снимок экрана: портал Fabric, показывающий Обозреватель Lakehouse, в котором отображаются зеркало таблицы и данные базы данных.

    Совет

    Вы можете добавить другие данные в Lakehouse напрямую или использовать такие сочетания клавиш, как S3, ADLS 2-го поколения. Вы можете перейти к конечной точке аналитики SQL Lakehouse и объединить данные по всем этим источникам с зеркало данными без проблем.

  10. Чтобы изучить эти данные в Spark, выберите точки рядом ... с любой таблицей. Выберите "Создать записную книжку" или "Существующая записная книжка", чтобы начать анализ. Снимок экрана: портал Fabric, показывающий контекстное меню, чтобы открыть таблицу базы данных зеркало в записной книжке.

  11. Записная книжка автоматически открывается и загружает кадр данных с SELECT ... LIMIT 1000 помощью запроса Spark SQL.

    • Для полной загрузки новых записных книжек может потребоваться до двух минут. Эту задержку можно избежать с помощью существующей записной книжки с активным сеансом. Снимок экрана: портал Fabric, показывающий данные из таблицы базы данных зеркало в новой записной книжке с запросом Spark SQL.