Лучшие hdfs вопросы ИТ разработчиков

  • 5 голосов
  • 3 ответа
  • 0 просмотров
3 ответа

Как можно перечислить все CSV-файлы в папке HDFS в оболочке Spark Scala?

Цель этого состоит в том, чтобы манипулировать и сохранять копию каждого файла данных во втором местоположении в HDFS. Я буду использовать

Задан 24 Sep 2015, 21:18 от Jaime
  • 13 голосов
  • 3 ответа
  • 0 просмотров
3 ответа

Размер сплита против размера блока в Hadoop

Какова взаимосвязь между размером разделения и размером блока в Hadoop? Как я читаю вэтотразмер разбиения должен быть n-кратным размером блока (n - целое чис...

Задан 30 May 2015, 17:33 от duong_dajgja
  • 2 голосов
  • 4 ответа
  • 0 просмотров
4 ответа

Несколько файлов хранятся в одном блоке?

Когда я сохраню много маленьких файлов в HDFS, они будут храниться в одном блоке?На мой взгляд, эти небольшие файлы должны храниться в одном блоке в соответс...

Задан 22 Jan 2014, 03:41 от liam xu
  • 4 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Ошибка API Jobtracker - вызов localhost / 127.0.0.1: сбой 50030 при локальном исключении: java.io.EOFException

Я пытаюсь подключить свой трекер с помощью Java.Ниже показана программа, которую я пытаюсь выполнить.

Задан 10 Oct 2012, 04:36 от K S Nidhin
  • 2 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Подтверждение операции записи данных Hadoop 2.0

У меня есть небольшой запрос относительно записи данных HadoopИз документации ApacheВ общем случае, когда коэффициент репликации равен трем, политика размеще...

Задан 16 Aug 2015, 17:30 от Ravindra babu
  • 10 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Количество редукторов по умолчанию

В Hadoop, если мы не установили количество редукторов, сколько будет создано число редукторов?Как число картографов зависит от(общий размер данных) / (входно...

Задан 10 Jan 2016, 07:23 от Mohit Jain
  • 52 голосов
  • 11 ответов
  • 0 просмотров
11 ответов

Масштабируемое хранилище изображений

В настоящее время я разрабатываю архитектуру для веб-приложения, которое также должно обеспечивать хранение изображений. Пользователи смогут загружать фотографии как одну из ключевых функций сервиса. Также просмотр этих изображений будет одним из ...

Задан 25 Dec 2009, 13:42 от b_erb
  • 47 голосов
  • 5 ответов
  • 0 просмотров
5 ответов

Разница между hadoop fs -put и hadoop fs -copyFromLocal

-put а также-copyFromLocal задокументированы как идентичные, в то время как в большинстве примеров используется подробный вариант -copyFromLocal. Почему? То же самое для-get а также-copyToLocal

Задан 18 Oct 2011, 17:29 от snappy
  • 87 голосов
  • 6 ответов
  • 0 просмотров
6 ответов

В чем разница между командами оболочки «hadoop fs» и командами оболочки «hdfs dfs»?

Они должны быть равны? но почемуhadoop fs«Команды показываютhdfs files в то время как "hdfs dfs"команды показывают локальные файлы? Вот информация о версии Hadoop: Hadoop 2.0.0-mr1-cdh4.2.1. Subversion ...

Задан 09 Aug 2013, 08:37 от Charlie Lin
  • 1 голос
  • 1 ответ
  • 0 просмотров
1 ответ

Hadoop: пример процесса создания файла SequenceFile с двоичными файлами изображений, которые будут обрабатываться в карте / уменьшить

СледующийHadoop: как получить доступ ко многим фотографиям, которые будут обработаны картой / уменьшить? [https://stackoverflow.com/questions/8752772/hadoop-how-to-access-many-photo-images-to-be-processed-by-map-reduce] вопрос, гдеorangeoctopus ...

Задан 06 Jan 2012, 06:17 от leslie
  • 2 голосов
  • 4 ответа
  • 0 просмотров
4 ответа

Несколько файлов хранятся в одном блоке?

Когда я сохраню много маленьких файлов в HDFS, они будут храниться в одном блоке? На мой взгляд, эти небольшие файлы должны храниться в одном блоке в соответствии с этим обсуждением:Размер блока HDFS против фактического размера ...

Задан 22 Jan 2014, 04:41 от liam xu
  • 10 голосов
  • 7 ответов
  • 0 просмотров
7 ответов

Получить несколько строк данных HDFS

У меня есть2 GB данные в моемHDFS. Можно ли получить эти данные случайно. Как мы делаем в командной строке Unix cat iris2.csv |head -n 50

Задан 28 Feb 2014, 09:15 от Unmesha SreeVeni
  • 7 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

может быть реплицировано только на 0 узлов вместо minReplication (= 1). Работает 4 datanode (s) и ни один узел (ы) не исключен в этой операции

Я не знаю, как исправить эту ошибку:

Задан 12 Dec 2015, 22:20 от Mona Jalal
  • 3 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Возможно ли хранить изображения в Elasticsearch?

Можно ли хранить изображения в кластерах Elasticsearch? Если да, то есть ли ресурс о рабочем процессе? Я проверил следующую ссылку:https://github.com/kzwang/...

Задан 25 May 2015, 14:06 от prem
  • 10 голосов
  • 4 ответа
  • 0 просмотров
4 ответа

Можно ли импортировать данные в таблицу Hive без копирования данных?

У меня есть файлы журналов, хранящиеся в виде текста в HDFS. Когда я загружаю файлы журнала в таблицу Hive, все файлы копируются. Могу ли я избежать хранения всех моих текстовых данных дважды? РЕДАКТИРОВАТЬ: я загружаю его с помощью следующей ...

Задан 07 Mar 2013, 12:18 от Mad Echet
  • 3 голосов
  • 3 ответа
  • 0 просмотров
3 ответа

Задание MapReduce со смешанными источниками данных: таблица HBase и файлы HDFS

Мне нужно реализовать работу MR, которая обращается к данным как из таблицы HBase, так и из файлов HDFS. Например, mapper считывает данные из таблицы HBase и...

Задан 03 Jul 2013, 17:17 от S. Zhou
  • 7 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Изменение коэффициента репликации HDFS

Если коэффициент репликации в кластере изменяется, скажем, с 5 до 3 и кластер перезапускается, что происходит со старыми файловыми блоками? Будут ли они счит...

Задан 13 Jun 2013, 02:57 от user2470193
  • 8 голосов
  • 5 ответов
  • 0 просмотров
5 ответов

Небольшие файлы и блоки HDFS

Хранит ли блок в распределенной файловой системе Hadoop несколько небольших файлов или блок хранит только 1 файл?

Задан 19 Dec 2011, 14:42 от Eugen
  • 3 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Метод hadoop для отправки вывода в несколько каталогов

мойMapReduce задание обрабатывает данные по датам и должно записывать вывод в определенную структуру папок. Текущее ожидание заключается в следующем: 2013 01 02 .. 2012 01 02 ..и т.п. В любое время я получаю только до 12 месяцев данных, поэтому ...

Задан 06 Nov 2013, 19:25 от Kiran
  • 7 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Установка fs.default.name в core-site.xml Устанавливает HDFS в безопасный режим

Я установил дистрибутив Cloudera CDH4 на одной машине в псевдораспределенном режиме и успешно проверил, что он работает правильно (например, может запускать программы MapReduce, вставлять данные на сервер Hive и т. Д.). Однако, если ...

Задан 16 Oct 2013, 19:42 от Jake Z
  • 7 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

hadoop / yarn и распараллеливание задач в файловых системах без hdfs

Я создал кластер Hadoop 2.4.1 и обнаружил, что работающие приложения MapReduce будут распараллеливаться по-разному в зависимости от того, на какой файловой с...

Задан 12 Aug 2014, 16:58 от calvin
  • 5 голосов
  • 3 ответа
  • 0 просмотров
3 ответа

Нет. Вам придется удалить это поле или, по крайней мере, переименовать его.

ли я разбить таблицу Hive после вставки по существующему полю? У меня есть файл 10 ГБ с полем даты и полем дня. Можно ли загрузить этот файл в таблицу, а затем вставить-перезаписать в другую многораздельную таблицу, которая использует эти поля в ...

Задан 08 Jul 2011, 23:07 от batman
  • 8 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Храните изображения / видео в Hadoop HDFS

Я хотел бы сохранить некоторые видео / изображения в HadoopHDFS [http://en.wikipedia.org/wiki/Apache_Hadoop#Hadoop_distributed_file_system], но я слышал, что HDFS принимает только файлы, как текст. Чтобы быть уверенным, мы можем хранить видео / ...

Задан 14 May 2013, 14:35 от devosJava
  • 4 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Как установить объект в качестве значения для вывода карты в Hadoop MapReduce?

В Hadoop MapReduce для промежуточного вывода (генерируемого картой ()) я хочу, чтобы значением для промежуточного вывода был следующий объект. MyObject{ date:Date balance:Double }Как бы я это сделал? Должен ли я создать свой собственный ...

Задан 14 Dec 2012, 10:42 от shahalpk
  • 1 голос
  • 2 ответа
  • 0 просмотров
2 ответа

Время последней модификации Hadoop dir / file

Есть ли способ получить последние измененные времена всех директорий и файлов в формате hdf? Я хочу создать страницу, которая отображает информацию, но я понятия не имею, как получить последний раз мод все в одном файле .txt.

Задан 04 Aug 2013, 18:24 от Eric
  • 34 голосов
  • 3 ответа
  • 0 просмотров
3 ответа

Искра на понимании понятия пряжи

Я пытаюсь понять, как работает spark на кластере / клиенте YARN. У меня в голове следующий вопрос.Необходимо ли, чтобы искра была установлена ​​на всех узлах...

Задан 23 Jul 2014, 12:00 от Sporty
  • 2 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Как перечислить файлы в директории HDFS

Как мне перечислить файлы в каталоге HDFS? Это для перечисления файлов в кластере Apache Spark с использованием Scala. Я вижу, что есть опция sc.textfile (),...

Задан 19 Jun 2016, 02:33 от vijay
  • 9 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Как HBase включает произвольный доступ к HDFS?

Учитывая, что HBase - это база данных, файлы которой хранятся в HDFS, как она обеспечивает произвольный доступ к отдельному фрагменту данных в HDFS? Каким сп...

Задан 21 Jan 2014, 02:59 от Matthew Moisen
  • 123 голосов
  • 5 ответов
  • 0 просмотров
5 ответов

Разница между HBase и Hadoop / HDFS

Это довольно наивный вопрос, но я новичок в парадигме NoSQL и мало что знаю об этом. Так что, если кто-то может помочь мне четко понять разницу между HBase и Hadoop, или если дать несколько указателей, которые могут помочь мне понять разницу. До ...

Задан 05 Jun 2013, 00:49 от Dhaval Shah
  • 18 голосов
  • 6 ответов
  • 0 просмотров
6 ответов

Есть ли эквивалент в `pwd` в hdfs?

Я пытался сделатьhdfs dfs -pwd, но эта команда не существует. Так что в настоящее время я прибегаю кhdfs dfs -ls .. с последующимhdfs dfs -ls ../... Я также посмотрел на список команд дляhdfs dfs но не увидел ничего, что выглядело ...

Задан 03 Feb 2014, 23:05 от merlin2011
  • 1 голос
  • 1 ответ
  • 0 просмотров
1 ответ

Spark: сохранение RDD по уже существующему пути в HDFS

Я могу сохранить вывод RDD в HDFS сsaveAsTextFile метод. Этот метод вызывает исключение, если путь к файлу уже существует.У меня есть случай, когда мне нужно...

Задан 29 Jul 2016, 16:29 от yAsH
  • 3 голосов
  • 3 ответа
  • 0 просмотров
3 ответа

Задание MapReduce со смешанными источниками данных: таблица HBase и файлы HDFS

Мне нужно реализовать работу MR, которая обращается к данным как из таблицы HBase, так и из файлов HDFS. Например, mapper считывает данные из таблицы HBase и из файлов HDFS, эти данные имеют один и тот же первичный ключ, но имеют другую схему. ...

Задан 03 Jul 2013, 19:17 от S. Zhou
  • 1 голос
  • 4 ответа
  • 0 просмотров
4 ответа

Hadoop HDFS: чтение файлов последовательности, которые записываются

Я использую Hadoop 1.0.3. Я записываю журналы в файл последовательности Hadoop в HDFS, я вызываю syncFS () после каждой группы журналов, но я никогда не закрываю файл (за исключением случаев, когда я выполняю ежедневное обновление). То, что я ...

Задан 17 Jan 2013, 11:04 от Guillaume Perrot
  • 1 голос
  • 1 ответ
  • 0 просмотров
1 ответ

@rajendramoka Добро пожаловать!

ли создать n внешних таблиц, указывающих на один путь hdfs с помощью Hive. Если да, каковы преимущества и ограничения.

Задан 04 Jan 2019, 11:07 от rajendra moka
Page 1 of 5
1 2 3 4 5