10
ответов

Запишите в несколько выводов ключевым Spark - одно задание Spark

Как можно записать в несколько выводов, зависящих от ключевого Spark использования в единственном Job.Похожие страницы: Запишите в несколько выводов ключом, Ошпаривающим Hadoop, одного MapReduce Job, Например, sc.makeRDD (Seq ((1), (1...
вопрос задан: 16 December 2018 00:03
5
ответов

Как установить имя свойства при преобразовании столбца массива в json в искровом режиме? (без учета udf) [dубликат]

У меня есть dataframe с столбцом массива с фиксированным размером. Например: [v1, v2, v3, v4] Мне нужно преобразовать массив в json следующей структуры: {v1: {Min: v2, Max: v3, ...
вопрос задан: 23 May 2017 15:09
5
ответов

Обратитесь к sqlContext как к глобальной переменной [duplicate]

Я создал объект, как показано ниже: class Pivot: def __init __ (self, pivot_name): global sqlContext self._df = sqlContext.table (pivot_name) В Databricks я упаковал этот код в ...
вопрос задан: 4 August 2010 01:28
4
ответа

вопрос задан: 23 June 2017 00:02
2
ответа

Кадр данных Spark отличает столбцы с дублированным именем

Так как я знаю в Кадре данных Spark, который для нескольких столбцов может иметь то же имя как показано в ниже снимка кадра данных: [строка (a=107831, f=SparseVector (5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), =...
вопрос задан: 5 January 2019 19:00
2
ответа

Как удалить столбцы в pyspark кадре данных

>>> DataFrame [идентификатор: bigint, julian_date: строка, user_id: bigint]>>> b DataFrame [идентификатор: bigint, quan_created_money: десятичное число (10,0), quan_created_cnt: bigint]>>> a.join (b, a.id =...
вопрос задан: 13 April 2015 11:51
1
ответ

Spark DataFrame groupBy и вид в порядке по убыванию (pyspark)

Я использую pyspark (Python 2.7.9/Spark 1.3.1) и имею кадр данных GroupObject, который я должен отфильтровать и вид в порядке по убыванию. Попытка достигнуть его через эту часть кода...
вопрос задан: 6 January 2019 17:05
1
ответ

Вложенная строка Spark в классе case для обработки данных с переменными типами?

Я пытаюсь найти способ моделирования коллекций данных с переменным типом в классе класса Scala, который я манипулирую как набор данных Spark. Возможно ли вставить строку Spark в класс класса, например ...
вопрос задан: 13 August 2018 14:27
1
ответ

Почему Spark подчеркивает развязку схемы, памяти, хранилища?

Во всей литературе Spark я неоднократно видел упоминания о таких вещах, как приведенная ниже цитата. Также как развязка схемы из хранилища. Инструменты, написанные для сред HPC, часто не могут ...
вопрос задан: 13 August 2018 14:17
1
ответ

pyspark: выборка общих данных из фрейма данных при сравнении значений данных столбцов

У меня есть два фрейма данных pyspark. data_frame A + ---- + --- + | name1 | id1 | + ---- + --- + | | 3 | | б | 5 | | с | 7 | + ---- + --- + data_frame B + ---- + --- + | name2 | id2 | + ---- + --- + | | 13 | | ...
вопрос задан: 13 August 2018 13:48
1
ответ

вопрос задан: 18 May 2018 22:13
0
ответов

Какая платформа / инфраструктура openource хороша для машинного обучения и почему? [на удерживании]

сравнивая лучшие системы обучения машинам с открытым исходным кодом, которые лучше всего среди них?
вопрос задан: 13 August 2018 14:58
0
ответов

структурированная потоковая запись в разные папки паркета

Я использую искровое структурированное потоковое чтение, чтобы читать события из темы кафки, обрабатывать их и писать в паркет. Я должен написать вывод в разные папки на основе ключа, который я получаю в event.I пытался ...
вопрос задан: 13 August 2018 14:56
0
ответов

В искры замените partialFunction другой полученной ошибкой

Вот мой код, импликация pageRank algo: def pageRank (sc: SparkContext): Unit = {// Init val links = xxx // тип данных: String, List [String] var ranks = links.mapValues ​​(_ = & gt; ; 1.0) // ...
вопрос задан: 13 August 2018 14:39
0
ответов

Объект GroupedData не имеет атрибута 'show', когда он делает поворот в блоке данных искры

Я хочу повернуть световой блок данных, я ссылаюсь на документацию pyspark и на основе функции поворота, ключ - это .groupBy ('name'). Pivot ('name', values ​​= None). Вот мой набор данных, В [75]: spDF.show () Out [...
вопрос задан: 13 August 2018 14:14