Вопрос по na, default-value, sparse-matrix, r – Создание (и доступ к) разреженной матрицы с записями по умолчанию NA

14

Узнав оварианты работы с разреженными матрицами в RЯ хочу использоватьматрица пакет для создания разреженной матрицы из следующего фрейма данных и иметь все остальные элементыNA.

     s    r d
1 1089 3772 1
2 1109  190 1
3 1109 2460 1
4 1109 3071 2
5 1109 3618 1
6 1109   38 7

Я знаю, что могу создать разреженную матрицу со следующими элементами, как обычно:

> library(Matrix)
> Y <- sparseMatrix(s,r,x=d)
> Y[1089,3772]
[1] 1
> Y[1,1]
[1] 0

но если я хочу, чтобы значением по умолчанию было NA, я попробовал следующее:

  M <- Matrix(NA,max(s),max(r),sparse=TRUE)
  for (i in 1:nrow(X))
    M[s[i],r[i]] <- d[i]

и получил эту ошибку

Error in checkSlotAssignment(object, name, value) : 
  assignment of an object of class "numeric" is not valid for slot "x" in an object of class "lgCMatrix"; is(value, "logical") is not TRUE

Более того, я считаю, что для доступа к элементам требуется гораздо больше времени.

> system.time(Y[3,3])
   user  system elapsed 
  0.000   0.000   0.003 
> system.time(M[3,3])
   user  system elapsed 
  0.660   0.032   0.995 

Как я должен создавать эту матрицу? Почему с одной матрицей гораздо медленнее работать?

Вот фрагмент кода для вышеуказанных данных:

X <- structure(list(s = c(1089, 1109, 1109, 1109, 1109, 1109), r = c(3772, 
190, 2460, 3071, 3618, 38), d = c(1, 1, 1, 2, 1, 7)), .Names = c("s", 
"r", "d"), row.names = c(NA, 6L), class = "data.frame")

Ваш Ответ

2   ответа
16

Почему вы хотите значения NA по умолчанию? Насколько я знаю, матрицы только разрежены, если они имеют нулевые ячейки. Поскольку NA - ненулевое значение, вы теряете все выгоды от разреженной матрицы. Классическая матрица еще более эффективна, если в матрице почти нет нулей. Классическая матрица похожа на вектор, который будет вырезан в соответствии с размерами. Таким образом, он должен хранить только вектор данных и размеры. Разреженная матрица хранит только ненулевые значения, но также сохраняет там местоположение. Это преимущество, если и только если у вас достаточно нулевых значений.

Но если мой & quot; default & quot; значение равно 1, тогда, несомненно, у вас есть только 1 дополнительный бит информации для хранения, то есть, что по умолчанию используется 1 вместо предположения 0. Я все еще сохраняю «отличается от значения по умолчанию». значения, как вы делаете в примере 0, но предпосылка гораздо более общая.
Да, я полагаю, это правда. Christopher DuBois
& quot; Это преимущество, если и только если у вас достаточно нулевых значений. & quot ;: Просто не соответствует действительности. Заменить каждое вхождение "ноль" в вашем комментарии от "один" или любой другой номер, и вы увидите, что ваше предложение все еще в силе. Тот факт, что ноль используется, просто по соглашению, и есть много приложений, где имеет смысл иметь значения по умолчанию, отличные от нуля. С точки зрения экономии памяти имеет смысл установить значение по умолчанию на число, которое чаще всего встречается в вашем наборе данных.
11

Да, ответ Тьерри определенно верный, я могу сказать, как соавтор "Матрицы". пакет ...

На другой ваш вопрос: почему происходит доступ к & quot; M & quot; медленнее, чем "Y"? Основной ответ заключается в том, что «M» намного более разреженный чем "Y" следовательно, он намного меньше и - в зависимости от размеров и оперативной памяти вашей платформы - время доступа гораздо меньше для объектов меньшего размера, особенно для индексации в них.

Я думаю о том, есть ли значение по умолчанию для sparseMatrix?
К сожалению, все ненулевые ячейки всегда сохраняются. Было бы неплохо иметь возможность указать значение по умолчанию, отличное от нуля, для sparseMatrix.
Спасибо! Я с нетерпением жду новых ответов на StackOverflow. Я попытаюсь задать некоторые вопросы, которые у меня возникли при использовании Matrix ... Christopher DuBois
Я согласен с @ Quantum7: в науках о жизни, например, "0" не всегда означает «нет информации». Попарное сходство 0 между двумя объектами несет информацию о том, что они не одинаковы. Принимая во внимание, что NA означает, что мы просто не знаем, насколько они похожи (часто это имеет место в биологических данных). Было бы разумно не автоматически выравнивать 0 == отсутствует и позволить пользователю передать желаемое значение по умолчанию (например, NA). С точки зрения улучшения памяти это должен быть тот, который чаще всего встречается в наборе данных. На мой взгляд, это ограничение вашей реализации, а не общее.

Похожие вопросы