Вопрос по – КНН: обучение, тестирование и проверка

4

Я извлекаю графические объекты из 10 классов по 1000 изображений в каждом. Поскольку есть 50 функций, которые я могу извлечь, я подумываю найти лучшую комбинацию функций для использования здесь. Наборы обучения, проверки и тестирования разделены следующим образом:

Training set = 70%
Validation set = 15%
Test set = 15%

Я использую прямой выбор функций на наборе проверки, чтобы найти наилучшую комбинацию функций, и, наконец, использую тестовый набор для проверки общей точности. Может кто-нибудь сказать мне, правильно ли я это делаю?

Вопрос кажется неверным - как показывает ответ ниже thebluephantom

Ваш Ответ

2   ответа
2

для прогнозирования, поэтому это один из наиболее затратных по времени и пространственности методов классификации. Уменьшение возможностей может уменьшить эти проблемы. Перекрестная проверка - намного лучший способ тестирования, чем разделение на тренировку / тестирование.

13

kNN являетсяexception к общему процессу создания / тестирования контролируемых моделей машинного обучения. Особенно,the model созданный через kNN - это просто доступные помеченные данные, размещенные в некотором метрическом пространстве.

Другими словами, для кНН,there is no training step because there is no model строить. Соответствие шаблонам & amp; интерполяция - это все, что происходит в кНН.

Neither is there a validation step, Валидация измеряет точность модели по данным обучения как функцию количества итераций (прогресс обучения). Избыточное снаряжение подтверждается движением вверх этой эмпирической кривой и указывает точку, в которой следует прекратить обучение. Другими словами, поскольку модель не построена, проверять нечего.

Но вы все равно можете проверить - то есть оценить качество прогнозов, используя данные, в которых цели (метки или баллы) скрыты от модели.

Но даже тестирование немного отличается для kNN по сравнению с другими контролируемыми методами машинного обучения. В частности, для kNN качество прогнозов, конечно, зависит от объема данных или, точнее, от плотности (количества точек на единицу объема), т. Е. Если вы собираетесь прогнозировать неизвестные значения, усредняя 2-3 точки, ближайшие к нему, тогда полезно, если у вас есть точки, близкие к той, которую вы хотите предсказать. Следовательно,keep the size of the test set smallили, что еще лучше, используйте перекрестную проверку в k-кратном порядке или перекрестную проверку в порядке исключения, обе из которых дают вам более тщательное модельное тестирование, но не за счет уменьшения размера вашей популяции соседей kNN.

Error: User Rate Limit Exceeded
Error: User Rate Limit Exceeded klijo
Error: User Rate Limit Exceeded klijo

Похожие вопросы