Спамдексинг - Spamdexing

В цифровой маркетинг и он-лайн реклама, спамдексинг (также известен как спам в поисковых системах, отравление поисковой системы, черная шляпа поисковая оптимизация (SEO), поисковый спам или веб-спам)[1] это умышленное манипулирование поисковый движок индексы. Он включает в себя ряд методов, таких как создание ссылок и повторение несвязанных фраз, чтобы манипулировать релевантностью или известностью проиндексированных ресурсов способом, несовместимым с целями системы индексирования.[2][3]

Спамдексинг можно рассматривать как часть поисковая оптимизация, хотя существует множество методов поисковой оптимизации, которые улучшают качество и внешний вид контента веб-сайтов и предоставляют контент, полезный для многих пользователей.[4]

Поисковые системы используют множество алгоритмы для определения рейтинга релевантности. Некоторые из них включают определение того, появляется ли поисковый запрос в основной текст или URL из веб-страница. Многие поисковые системы проверяют наличие спама и удаляют подозрительные страницы из своих индексов. Кроме того, операторы поисковых систем могут быстро заблокировать список результатов со всех веб-сайтов, использующих спам-индексирование, возможно, в ответ на жалобы пользователей на ложные совпадения. Рост спама в середине 1990-х сделал ведущие поисковые системы того времени менее полезными. Использование неэтичных методов для повышения рейтинга веб-сайтов в результатах поисковых систем, чем они могли бы быть в противном случае, обычно называют в индустрии SEO (поисковой оптимизации) «черной шляпой SEO». Эти методы больше ориентированы на нарушение правил и рекомендаций поискового продвижения. В дополнение к этому, злоумышленники рискуют, что их веб-сайты будут серьезно наказаны Google Panda и Google Penguin алгоритмы ранжирования результатов поиска.[5]

Распространенные методы спамодексирования можно разделить на два широких класса: контентный спам[4] (или термин спам) и ссылочный спам.[3]

История

Самая ранняя известная ссылка[2] к сроку спамдексинг это Эрик Конвей в своей статье «порно пробирается путь обратно на Web» Бостон Геральд, 22 мая 1996 г., где он сказал:

Проблема возникает, когда операторы сайтов загружают свои веб-страницы сотнями посторонних терминов, поэтому поисковые системы перечисляют их среди допустимых адресов. Этот процесс называется «спамдексингом», т.е. рассылка спама - термин в Интернете для отправки пользователям нежелательной информации - и "индексация."[2]

Контентный спам

Эти методы включают изменение логического представления поисковой системы о содержимом страницы. Все они нацелены на варианты векторная космическая модель для поиска информации по текстовым коллекциям.

Наполнение ключевыми словами

Наполнение ключевыми словами предполагает расчетное размещение ключевых слов на странице для увеличения количества ключевых слов, разнообразия и плотности страницы. Это полезно для того, чтобы страница выглядела релевантной для поисковый робот таким образом, чтобы его можно было найти. Пример: промоутер Схема Понци хочет привлечь пользователей Интернета на сайт, где он рекламирует свою аферу. Он размещает на своей странице скрытый текст, соответствующий фан-странице популярной музыкальной группы, надеясь, что эта страница будет указана как фан-сайт и получит много посещений от меломанов. Старые версии программ индексирования просто подсчитывали, как часто появлялось ключевое слово, и использовали это для определения уровней релевантности. Большинство современных поисковых систем имеют возможность анализировать страницу на предмет наполнения ключевыми словами и определять, согласуется ли частота с другими сайтами, созданными специально для привлечения трафика из поисковых систем. Кроме того, большие веб-страницы усекаются, поэтому массивные списки словарей не могут быть проиндексированы на одной веб-странице.[нужна цитата ] (Однако спамеры могут обойти это ограничение размера веб-страницы, просто создав несколько веб-страниц, независимо или связанных друг с другом.)

Скрытый или невидимый текст

Несвязанный скрытый текст маскируется, делая его того же цвета, что и фон, используя крошечный размер шрифта или скрывая его внутри HTML код, например разделы "без рамки", атрибуты alt, нулевого размера DIV, и разделы "без сценария". Люди, вручную проверяющие веб-сайты с красным флажком для поисковой компании, могут временно или навсегда заблокировать весь веб-сайт из-за наличия невидимого текста на некоторых из его страниц. Однако скрытый текст не всегда указывает на спам: его также можно использовать для улучшения доступность.

Наполнение мета-тегов

Это предполагает повторение ключевых слов в Мета-теги и с использованием мета-ключевых слов, не связанных с содержанием сайта. Эта тактика неэффективна с 2005 года.[нужна цитата ]

Дверные страницы

"Шлюз" или дверные проемы представляют собой некачественные веб-страницы, созданные с очень небольшим содержанием, но вместо этого наполненные очень похожими ключевыми словами и фразами. Они предназначены для высокого ранга в результатах поиска, но не служат никакой цели для посетителей, ищущих информацию. На дверном проеме обычно есть «щелкните здесь, чтобы войти»; Для этой цели также может использоваться автопересылка. В 2006 году Google вытеснил производителя автомобилей БМВ за использование «дверных страниц» на немецком сайте компании BMW.de.[6]

Сайты-скребки

Сайты-скребки создаются с использованием различных программ, предназначенных для «очистки» страниц результатов поисковых систем или других источников контента и создания «контента» для веб-сайта.[нужна цитата ] Конкретное представление контента на этих сайтах уникально, но представляет собой просто объединение контента, взятого из других источников, часто без разрешения. Такие веб-сайты, как правило, полны рекламы (например, оплата за клик ads) или перенаправляют пользователя на другие сайты. Сайты-скребки даже могут опередить оригинальные сайты по своей информации и названиям организаций.

Статья крутится

Статья крутится включает в себя переписывание существующих статей, а не простое извлечение контента с других сайтов, чтобы избежать штрафов, налагаемых поисковыми системами за дублированный контент. Этот процесс выполняется наемными писателями или автоматизирован с использованием тезаурус база данных или нейронная сеть.

Машинный перевод

Аналогично статья прядение, некоторые сайты используют машинный перевод для отображения своего контента на нескольких языках без редактирования человеком, что приводит к неразборчивому тексту, который, тем не менее, продолжает индексироваться поисковыми системами, тем самым привлекая трафик.

Страницы без информации, связанной с заголовком страницы

Публикация веб-страниц, содержащих информацию, не имеющую отношения к названию, - это вводящая в заблуждение практика, известная как обман. Несмотря на то, что ведущие поисковые системы, ранжирующие страницы, налагают штрафы, обман является обычной практикой на некоторых типах сайтов, включая сайты со словарями и энциклопедиями.

Ссылочный спам

Ссылочный спам »определяется как ссылки между страницами, которые присутствуют не по заслугам.[7] В ссылочном спаме используются алгоритмы ранжирования на основе ссылок, что дает веб-сайты чем выше рейтинг, тем больше других высокопоставленных сайтов ссылаются на него. Эти методы также направлены на влияние на другие методы ранжирования на основе ссылок, такие как Алгоритм HITS.[нужна цитата ]

Связать фермы

Фермы ссылок - это тесно связанные сети веб-сайтов, которые ссылаются друг на друга с единственной целью - опробовать алгоритмы ранжирования в поисковых системах. Они также в шутку известны как общества взаимного восхищения.[8] Использование ферм ссылок значительно сократилось после того, как Google запустил первое обновление Panda в феврале 2011 года, в котором были внесены значительные улучшения в алгоритм обнаружения спама.

Частные сети блогов

Сети блогов (PBN) - это группа авторитетных веб-сайтов, используемых в качестве источника контекстных ссылок, указывающих на основной веб-сайт владельца для достижения более высокого рейтинга в поисковых системах. Владельцы веб-сайтов PBN используют просроченные домены или аукционные домены который имеет обратные ссылки с авторитетных сайтов. Google несколько раз нацеливался на пользователей PBN и наказывал их, проводя несколько масштабных кампаний деиндексации с 2014 года.[9]

Скрытый ссылки

Положив гиперссылки где посетители не увидят их увеличения популярность ссылок. Выделенный текст ссылки может помочь повысить рейтинг веб-страницы по соответствию этой фразе.

Атака Сибиллы

А Атака Сибиллы - это подделка нескольких личностей со злым умыслом, названная в честь известного пациента с множественным расстройством личности "Сибил ". Спамер может создать несколько веб-сайтов на разных доменные имена все они связаны друг с другом, например поддельные блоги (известные как спам-блоги ).

Спам-блоги

Блоги со спамом - это блоги, созданные исключительно для коммерческого продвижения и передачи полномочий по ссылкам на целевые сайты. Часто эти «блоги» создаются вводящим в заблуждение образом, что создает эффект легитимного веб-сайта, но при внимательном рассмотрении они часто будут написаны с использованием вращающегося программного обеспечения или будут содержать очень плохо написанное и трудночитаемое содержание. По своей природе они похожи на связующие фермы.

Спам в гостевом блоге

Спам в гостевых блогах - это процесс размещения гостевых блогов на веб-сайтах с единственной целью получения ссылки на другой веб-сайт или веб-сайты. К сожалению, их часто путают с законными формами гостевых блогов с другими мотивами, кроме размещения ссылок. Этот метод прославили Мэтт Каттс, которые публично объявили «войну» этой форме ссылочного спама.[10]

Покупка просроченных доменов

Некоторые спамеры используют просроченное программное обеспечение для сканирования доменов или отслеживают записи DNS для доменов, срок действия которых истекает в ближайшее время, а затем покупают их, когда срок их действия истекает, и заменяют страницы ссылками на свои страницы. Однако возможно, но не подтверждено, что Google сбрасывает данные ссылок на просроченных доменах.[нужна цитата ] Чтобы сохранить все предыдущие данные рейтинга Google для домена, желательно, чтобы покупатель получил домен до того, как он будет «отброшен».

Некоторые из этих методов могут быть применены для создания Гугл бомба - то есть сотрудничать с другими пользователями для повышения рейтинга конкретной страницы по определенному запросу.

Начинка печенья

Начинка печенья предполагает размещение филиал отслеживающие файлы cookie на компьютере посетителя веб-сайта без его ведома, который затем будет приносить доход лицу, выполняющему загрузку файлов cookie. Это не только генерирует мошеннические партнерские продажи, но также может перезаписывать файлы cookie других аффилированных лиц, по сути крадя их законно заработанные комиссионные.

Использование страниц с возможностью записи во всем мире

Веб-сайты, которые могут редактироваться пользователями, могут использоваться спамодексерами для вставки ссылок на сайты со спамом, если не приняты соответствующие меры защиты от спама.

Автоматизированный спам-боты может быстро сделать редактируемую пользователем часть сайта непригодной для использования. Программисты разработали множество автоматизированных методы предотвращения спама чтобы заблокировать или хотя бы замедлить спам-боты.

Спам в блогах

Спам в блогах - это размещение или запрос ссылок в случайном порядке на других сайтах, размещение желаемого ключевого слова в гиперссылке текста входящей ссылки. Гостевые книги, форумы, блоги и любой сайт, который принимает комментарии посетителей, являются особыми целями и часто становятся жертвами спама, когда автоматизированное программное обеспечение создает бессмысленные сообщения со ссылками, которые обычно неактуальны и нежелательны.

Спам в комментариях

Спам в комментариях - это форма ссылочного спама, возникшего на веб-страницах, которые позволяют динамическое редактирование пользователем, например вики, блоги, и гостевые книги. Это может быть проблематично, потому что агенты можно написать, что автоматически случайным образом выбирает редактируемую пользователем веб-страницу, такую ​​как статья в Википедии, и добавляет ссылки для рассылки спама.[11]

Вики-спам

Вики-спам - это форма ссылочного спама на вики-страницах. Спамер использует открытые возможности редактирования вики-систем для размещения ссылок с вики-сайта на спам-сайт.

Спам в журнале реферера

Реферальный спам происходит, когда злоумышленник или фасилитатор обращается к веб-страницарефери), перейдя по ссылке с другой веб-страницы ( реферер ), так что рефери получает адрес реферера в интернет-браузере человека. Немного веб-сайты иметь журнал рефереров, который показывает, какие страницы ссылаются на этот сайт. Имея робот произвольный доступ ко многим сайтам достаточное количество раз, с сообщением или конкретным адресом, указанным в качестве реферера, это сообщение или Интернет-адрес затем появляется в журнале рефереров тех сайтов, которые имеют журналы рефереров. Поскольку некоторые Поисковые системы основывать важность сайтов на количестве различных сайтов, ссылающихся на них, спам в журналах рефереров может повысить рейтинг сайтов спамеров в поисковых системах. Кроме того, администраторы сайта, которые заметили записи журнала рефереров в своих журналах, могут перейти по ссылке обратно на страницу реферера спамера.

Контрмеры

Из-за большого количества спама, отправляемого на редактируемые пользователем веб-страницы, Google предложил тег nofollow, который можно было бы встроить со ссылками. Поисковая система на основе ссылок, такая как Google PageRank система не будет использовать ссылку для повышения оценки связанного веб-сайта, если ссылка содержит тег nofollow. Это гарантирует, что спам-ссылки на сайты, редактируемые пользователем, не поднимут рейтинг сайтов в поисковых системах. Nofollow используется несколькими крупными веб-сайтами, в том числе Wordpress, Blogger и Википедия.[нужна цитата ]

Другие типы

Зеркальные сайты

А зеркало сайта это хостинг нескольких веб-сайтов с концептуально похожим контентом, но использующих разные URL-адреса. Некоторые поисковые системы дают более высокий рейтинг результатам, в которых искомое ключевое слово появляется в URL-адресе.

Перенаправление URL

Перенаправление URL перевод пользователя на другую страницу без его вмешательства, например, с помощью МЕТА обновление теги вспышка, JavaScript, Ява или Перенаправления на стороне сервера. Однако, 301 перенаправление, или постоянное перенаправление, не считается злонамеренным.

Маскировка

Маскировка относится к любому из нескольких способов обслуживания страницы в поисковой системе. паук это отличается от того, что видят пользователи. Это может быть попытка ввести в заблуждение поисковые системы относительно содержания определенного веб-сайта. Однако маскировка также может использоваться для этического повышения доступности сайта для пользователей с ограниченными возможностями или для предоставления пользователям-людям контента, который поисковые системы не могут обработать или проанализировать. Он также используется для доставки контента в зависимости от местоположения пользователя; Сам Google использует Доставка IP, форма маскировки для получения результатов. Другая форма маскировки - это замена кода, т.е., оптимизируя страницу для получения наивысшего рейтинга, а затем заменяя ее другой страницей, как только она будет достигнута. Google называет этот тип переадресации как Скрытые перенаправления.[12]

Контрмеры

Автор поисковой системы

Страницы, проиндексированные спамом, иногда исключаются поисковой системой из результатов поиска.

По пользователю поисковой системы

Пользователи могут выбрать ключевое слово для поиска, например, ключевое слово перед знаком «-» (минус) исключит сайты, содержащие это ключевое слово на их страницах или в их домене URL страниц из результатов поиска. Например, ключевое слово поиска «- <нежелательный сайт>» удалит сайты, содержащие слово «<нежелательный сайт>» на своих страницах, и страницы, домен URL которых содержит «<нежелательный сайт>».

Расширение Google Chrome

Сам Google запустил Гугл Хром расширение «Персональный черный список (от Google)» в 2011 году в рамках мер противодействия контент-фарм.[13][14] По состоянию на 2018 год расширение работает только с ПК версия Google Chrome.

Смотрите также

использованная литература

  1. ^ SearchEngineLand, Видеообъяснение спама в поисковых системах Дэнни Салливана, октябрь 2008 г. . Проверено 13 ноября 2008.
  2. ^ а б c «Word Spy - спамдексинг» (определение), март 2003 г., веб-страница:WordSpy-спамдексинг.
  3. ^ а б Дьёнджи, Золтан; Гарсия-Молина, Гектор (2005), "Классификация веб-спама" (PDF), Труды Первого международного семинара по состязательному поиску информации в сети (AIRWeb), 2005 г., на 14-й Международной конференции в Интернете (WWW, 2005 г.), 10, (вторник) - 14 (сб) мая 2005 г., Nippon Convention Center (Makuhari Messe ), Тиба, Япония., Нью-Йорк, Нью-Йорк: ACM Press, ISBN  1-59593-046-9
  4. ^ а б Нтулас, Александрос; Манассе, Марк; Наджорк, Марк; Феттерли, Деннис (2006), «Обнаружение веб-страниц со спамом с помощью анализа содержимого», 15-я Международная конференция World Wide Web (WWW 2006) 23–26 мая 2006 г., Эдинбург, Шотландия., Нью-Йорк, Нью-Йорк: ACM Press, ISBN  1-59593-323-9
  5. ^ Смарти, Энн (2008-12-17). «Что такое BlackHat SEO? 5 определений». Журнал поисковой системы. Получено 2012-07-05.
  6. ^ Сигал, Дэвид (13.02.2011). "Маленькие грязные секреты поиска". Нью-Йорк Таймс. Получено 2012-07-03.
  7. ^ Дэвисон, Брайан (2000), «Распознавание семейных ссылок в Интернете» (PDF), Семинар AAAI-2000 по искусственному интеллекту для веб-поиска, Бостон: AAAI Press, стр. 23–28.
  8. ^ "Поисковые системы: технологии, общество и бизнес - Марти Херст, 29 августа 2005 г." (PDF). berkeley.edu.
  9. ^ "Google нацелен на сайты, использующие частные сети блогов, с применением санкций за ранжирование вручную". Search Engine Land. 2014-09-23. Получено 2016-12-12.
  10. ^ «Упадок и падение гостевых блогов для SEO». mattcutts.com. 20 января 2014 г.
  11. ^ Мишне, Гилад; Дэвид Кармель; Ронни Лемпель (2005). «Блокировка спама в блогах с несогласием языковой модели» (PDF). Труды Первого международного семинара по состязательному поиску информации в сети. Получено 2007-10-24.
  12. ^ «Скрытая переадресация - Справка Search Console». support.google.com.
  13. ^ "Google 検 索 結果 の 悪 質 な サ 表示 & 通報 し 検 子質 ア プ に 貢献 で Google 公式 Chrome 拡 張 機能「 Personal Blocklist 」". gigazine.net.
  14. ^ «Новинка: блокируйте сайты из результатов Google с помощью« личного черного списка »Chrome - Search Engine Land». searchchengineland.com. 14 февраля 2011 г.

внешние ссылки