Вопрос по regression, glm, r, poisson – Регрессия для переменной Rate в R

5

Мне было поручено разработать регрессионную модель, учитывающую зачисление студентов в различные программы. Это очень хороший, чистый набор данных, в котором количество зачислений хорошо соответствует распределению Пуассона. Я подгоняю модель в R (используя GLM и Zero Inflated Poisson.) Полученные остатки казались разумными.

Тем не менее, мне было поручено изменить количество студентов на "темп" который был рассчитан как ученики / school_population (в каждой школе свое население.)) Теперь это больше не переменная подсчета, а пропорция между 0 и 1. Это считается "доля зачисления " в программе.

Это "темп" (студенты / население) больше не Пуассон, но, конечно, тоже не нормально. Так что я'Я немного потерял в отношении соответствующего распределения и последующей модели для его представления.

Логарифмическое нормальное распределение, кажется, хорошо вписывается в этот параметр скорости, однако у меня много значений 0, поэтому он выиграл 'Т на самом деле подходит.

Любые предложения о наилучшей форме распределения для этого нового параметра, и как смоделировать его в R?

Спасибо!

Перекрестная публикация в r-help:thread.gmane.org/gmane.comp.lang.r.general/291112 Ben Bolker
Я думаю, что это случай использования экспозиции / смещения (en.wikipedia.org/wiki/...). И, может быть, вопрос кstats.stackexchange.com Rcoster

Ваш Ответ

1   ответ
6

вы можете сохранить модель Пуассона и сделать это со смещением:

glm(response~predictor1+predictor2+predictor3+ ... + offset(log(population),
     family=poisson,data=...)

Или вы можете использовать биномиальный GLM, либо

glm(cbind(response,pop_size-response) ~ predictor1 + ... , family=binomial,
        data=...)

или же

glm(response/pop_size ~ predictor1 + ... , family=binomial,
        weights=pop_size,
        data=...)

Последняя форма иногда более удобна, хотя и менее широко используется. Имейте в виду, что в целом переход от Пуассона к биномиальному изменяет функцию связи с журнала на журнал, хотя вы можете использоватьfamily=binomial(link="log")) Если вы предпочитаете.

Нулевую инфляцию можно было бы проще смоделировать с помощью комбинации Пуассона + смещение (I 'я не уверен, чтоpscl пакет, наиболее распространенный подход к ZIP, обрабатывает смещения, но я думаю, что это так), который будет более доступен, чем биномиальная модель с нулевым раздуванием.

Я думаюglmmADMB будет делать биномиальную модель с завышенным нулем, но у меня нетЯ проверил это.

Бен - отличный ответ. Вы правы в том, что пакет pscl допускает смещение с моделью ZIP. Однако, когда я пытаюсь согласовать это со смещением, это неподходит как модель без смещения. Это кажется странным. Кроме того, я нене знаю, как прогнозируются значения. Если я использую функцию zeroinfl () в pscl, меняет ли смещение в формуле интерпретацию предсказанных значений? Noah

Похожие вопросы