Как получить выход MapReduce в одном файле вместо нескольких файлов в Hadoop кластера на Google Cloud?

голоса
1

Когда я бег моей баночки на локальном Hadoop кластера многоузлового, я могу видеть , выводит выход редуктора и представляет собой один файл каждую работу.

Но когда я запускаю тот же баночку на Google Cloud, я получаю несколько выходных файлов (часть-R-0000 *). Вместо того, что мне нужно , все выходные данные записываются в один файл. Как мне это сделать?

Задан 27/11/2014 в 07:33
источник пользователем
На других языках...                            


1 ответов

голоса
1

Ну одно простое решение для настройки запуска задания только с одним редуктором. Кажется , что на Google Cloud по умолчанию отличается. Смотрите здесь , как сделать это: Установка количества восстановителей в работе MapReduce , который находится в Oozie Workflow

Еще один способ справиться с этим, чтобы иметь конкатенации скрипт запуска в конце вашей карты сократить работу, штук вместе все части-р-файлы, то есть что-то вроде

cat *part-r* >>alloutput

Может быть немного более сложным, если у вас есть заголовки, а также вам нужно скопировать локальный первый.

Ответил 27/11/2014 в 10:07
источник пользователем

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more