Вопрос по web-crawler – Соединение вместе> 100 тыс. Страниц без наказания SEO

7

Я создаю сайт, на котором будут проверяться политики конфиденциальности сотен тысяч других сайтов в Интернете. Его первоначальное содержание основано на моем пробежке через CommonCrawl Веб-дамп на 5 миллиардов страниц и анализ всех политик конфиденциальности со сценарием, чтобы определить определенные характеристики (например, «продает вашу личную информацию»).

СогласноSEO MOZ Руководство для начинающих по SEO:

еханизмы поиска @ имеют тенденцию сканировать только около 100 ссылок на любой странице. Это свободное ограничение необходимо, чтобы сдерживать спам и сохранять рейтинг.

Мне было интересно, что было бы разумным способом создать сеть навигации, которая не оставляла бы страницы без внимания, но все же избежала бы такого наказания за SEO, о котором они говорят. У меня есть несколько идей:

Создавать алфавитные страницы (или Google Sitemap .xml), например "Сайты, начинающиеся с Ado *". И там будет ссылка на «Adobe.com», например. Это или любое другое бессмысленное разделение страниц кажется надуманным, и мне интересно, не понравится ли это Google. Использование мета-ключевых слов или описаний для классификации Найдите способ применить более интересные категории, например, географические или контентные. Меня беспокоит то, что я не уверен, каким образом я смогу применить такие категории по всем направлениям ко многим сайтам. Я полагаю, что в случае необходимости я мог бы написать другой классификатор, чтобы попытаться проанализировать содержание страниц из сканирования. Звучит как большая работа сама по себе. Используйте проект DMOZ, чтобы классифицировать страницы.

Wikipedia и StackOverflow, очевидно, очень хорошо решили эту проблему, позволив пользователям классифицировать или маркировать все страницы. В моем случае у меня нет такой роскоши, но я хочу найти лучший вариант.

В основе этого вопроса лежит реакция Google на различные структуры навигации. Наказывает ли это тех, кто создает сеть страниц программным / бессмысленным способом? Или это все равно, если все связано по ссылкам?

Ваш Ответ

1   ответ
3

100 ссылок на странице. Но каждая ссылка выше определенного порога уменьшается в значении / важности в алгоритме PageRank.

Цитируя SEOMOZ и Мэтта Каттса:

Ты можешь быть оштрафован?

Прежде чем мы углубимся, я хочу прояснить, что ограничение в 100 ссылок никогда не было штрафной ситуацией. В августе 2007 года Рэнд цитирует Мэтта Каттса:

«Сохраняйте количество ссылок до 100» находится в разделе технических рекомендаций, а не в разделе рекомендаций по качеству. Это означает, что мы не собираемся удалять страницу, если у вас есть 101 или 102 ссылки на странице. Думайте об этом больше как правило.

В то время, вероятно, Google начал игнорировать ссылки после определенного момента, но в худшем случае это не позволило этим ссылкам после 100 пройти PageRank. Сама страница не будет деиндексирована или оштрафована.

Так что вопрос в том, как заставить Google воспринимать все ваши ссылки всерьез. Это достигается созданием карты сайта XML для сканирования Google (у вас может быть статический файл sitemap.xml или его содержимое может генерироваться динамически). Вы будете хотеть читать на О файлах Sitemap раздел справочных документов Инструментов Google для веб-мастеров.

Подобно тому, как слишком большое количество ссылок на странице является проблемой, слишком большое количество ссылок в XML-файле карты сайта также является проблемой. То, что вам нужно сделать, это разбить на страницы вашу XML-карту сайта. Джефф Этвуд рассказывает о том, как StackOverflow реализует это: Важность файлов Sitemap. Джефф также обсуждает ту же проблему наодкаст @StackOverflow # 24.

Также эта концепция применима к Bing также

Что вы думаете о различных подходах к разделению ссылок? Будет ли Google беспокоиться о том, что некоторые из них более значимы, чем другие? bgcode
Мы не сталкивались с одним порядком сортировки лучше, чем с другим. Просто следуйте рекомендациям Google размером не более 10 МБ на файл карты сайта и не более 50 000 URL-адресов на файл. Кстати, вы можете указать Google приоритет каждой ссылки в файле sitemap.xml. Jason

Похожие вопросы