Обработка таблиц параллельно с использованием Azure Factory Data, одного трубопровода, одного Databricks ноутбук?

голоса
0

Я хочу, чтобы преобразовать список таблиц параллельно с использованием Azure Factory Data и один единственный Databricks ноутбук.

У меня уже есть трубопровод Azure данные завод (АПД), который принимает список таблиц в качестве параметра, устанавливает каждую таблицу из списка таблицы в качестве переменного, а затем вызывает один единственный ноутбук (который выполняет простые преобразования) и передает каждую таблицу последовательно этот ноутбук. Проблема заключается в том, что она преобразует таблицы последовательно (один за другим), а не параллельно (все таблицы, в то же время). Мне нужно таблицы должны быть обработаны параллельно.

Итак, мои вопросы: 1) Можно ли вызвать те же Databricks ноутбук нескольких раз на тот же момент времени (каждый раз с другой таблицей в качестве параметра) от Azure Factory Data? 2) Если да, то, что мне нужно сделать изменения в моем трубопроводе или ноутбук, чтобы заставить его работать?

Я думаю, что это, вероятно, не представляется возможным, чтобы вызвать тот же ноутбук несколько раз одновременно, потому что, когда я запустить этот ноутбук непосредственно от Databricks (и передать таблицу в качестве переменной), я должен ждать его, чтобы завершить работу, прежде чем я запустить его снова для другого таблица (параметр). Но я хочу быть уверен, что, если это возможно или нет. Я также знаю, что можно обрабатывать несколько таблиц параллельно с использованием нескольких ноутбуков, но в моем случае, мне нужно использовать один ноутбук. Заранее спасибо :)

параметры

ADF

переменные

переменные

Столовый набор переменных и ноутбуки

введите

Настройка последовательного

Настройка

Последовательная Неконтролируемый с Batch Count = заготовкой

При работе в режиме «последовательного» и Batch Count = заготовки и проходят две таблицы, прогоны трубопровода «успешно», но только одна таблица преобразуется (даже если добавить несколько таблиц в списке таблицы). «Установить переменную» правильно показывает дважды, один раз для каждой таблицы. Но Orchestrate дважды показывает для одной и той же таблицы.

введите

Последовательное Неконтролируемый с Batch Count = 2

При работе в режиме «последовательного» и Batch Count = 2, и передать две таблицы, трубопровод не будет работать на второй итерации, но она также пытается преобразуя и ту же таблицу в два раза. «Установить переменную» правильно показывает дважды, один раз для каждой таблицы. Но Orchestrate дважды показывает для одной и той же таблицы.

Последовательное

Последовательная проверка или Пакетный Count = 1

Если я оставить Последовательную проверку или Пакетный Count = 1, то трубопровод проходит правильно и выполняют преобразования на все таблицы, но обработка происходит последовательно (как ожидалось).

введите

Задан 13/01/2020 в 23:55
источник пользователем
На других языках...                            


1 ответов

голоса
0

Я решил его с помощью «Lookup» до SQL таблиц вместо «Set Variable». На рисунке ниже показано, пробег 5 таблиц параллельно, используя один единственный ноутбук.

введите описание изображения здесь

Ответил 14/01/2020 в 22:40
источник пользователем

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more