Рассматривается система комплексного анализа ссылочного профиля сайтов. Система предназначена для исследования ссылочного профиля сайта, позволяющая по большому количеству факторов определить являются ли входящие ссылки сайта естественными или оплаченными.
Ключевые слова: система комплексного анализа ссылок, ссылочный профиль, ссылочные факторы
Complex analysis system of site link profile is being considered. The system is designed to review site link profile. It affords to decide by variety of factors, are those links natural or paid.
Keywords: Complex analysis system of site link profile, link profile, link factors
Ссылки — важнейшая составляющая интернета. Они связывают между собой страницы всемирной паутины и являются тропинками, по которым ходят пользователи.
Поисковые системы ценят ссылки, которые ставятся для того, чтобы помочь посетителям сайта. Те же ссылки, которые появляются на сайтах за определенную плату (особенно когда они размещаются с использованием ссылочных бирж и предназначены для поисковых систем, а не посетителей сайта), мешают поисковым системам корректно определять степень доверия к сайтам и их релевантность запросам пользователей. Поисковые системы стараются не учитывать купленные ссылки, а при их большом количестве могут даже наложить на сайт определенные санкции и понизить его в поисковом рейтинге.
Поэтому сегодня для успешного продвижения сайта на первую страницу поисковой выдачи просто необходимо понимать, что из себя представляет ссылочный профиль сайта, насколько он отличается от профиля сайтов, находящихся на первой странице поисковой выдачи, какие ссылки являются естественными, а какие куплены.
В данной работе рассматривается система, разработанная для комплексного анализа ссылочного профиля исследуемого сайта. Система предназначена для получения рекомендаций по улучшению ссылочного профиля, на основе сопоставления с ссылочными профилями конкурентов, находящихся на первой странице поисковой выдачи.
Задача по анализу ссылочного профиля не является новой. Существуют различные программные решения по анализу ссылок Ahrefs, Majestik SEO, Check Trust. Однако данные программы не позволяют оценить естественность ссылок, а также не обладают возможностью генерировать рекомендации по улучшению ссылочного профиля. Следовательно, реализация системы комплексного анализа ссылочного профиля является вполне оправданной.
Исходя из поставленной цели, в работе решались следующие задачи:
‒ построить модель ссылочного профиля;
‒ разработка алгоритма идентификации тематики сайта-донора и страницы со ссылкой;
‒ разработка алгоритма классификации ссылок по естественности;
‒ разработка ПО для генерации рекомендаций по улучшению ссылочного профиля.
Классификация ссылок на предмет естественности происходит из учета большого количества факторов (Рис.1). К таким факторам можно отнести: расположение ссылки в теле страницы, тип анкора, схожесть тематик страниц, схожесть тематик сайтов, наличие переходов пользователей по этой ссылке и других.
Рис. 1. Ссылочные факторы
Каждый фактор имеет свой вес, который формируется в процессе обучения системы на обучающих выборках.
Входными сигнала нейронной сети являются различные ссылочные факторы, описанные выше. Каждый входной сигнал имеет свой вес wnn, который передается в скрытый слой S1..Sn. Каждый скрытый слов также имеет свой вес Wnn. На выходе мы получаем класс ссылки: естественная или купленная.
Алгоритм feedforward (прямопроходящий) в цикле обходит все узлы скрытого слоя и для каждого из них вычисляет сумму величин выходных сигналов от узлов входного слоя, помноженных на вес соответствующей связи. Выходной сигнал каждого скрытого узла — это результат применения функции тангенса к взвешенной сумме входных сигналов. Этот сигнал передается на выходной уровень. Выходной уровень делает то же самое — умножает полученные от предыдущего уровня сигналы на веса связей и применяет функцию тангенса для получения окончательного результата.
Рис. 2. Схема нейронной сети для классификации ссылки
Система разработана в виде веб-приложения, что делает ее очень мобильной и позволяет получить доступ к информации, где бы пользователь не находился.
Для разработки системы используется язык Python. Этот язык, позволяет качественно и на достаточном уровне выполнить систему необходимой сложности, а также обладает богатым набором библиотек для работы с веб-страницами. Для управления данными применяется фреймворк Django.
В качестве СУБД используется свободная система управления базами данных PostgreSQL. PostgreSQL — это свободно распространяемая объектно-реляционная система управления базами данных (ORDBMS), наиболее развитая из открытых СУБД в мире и являющаяся реальной альтернативой коммерческим базам данных.
В качестве веб-сервера выбран Apache 2.2 HTTP — сервер, принадлежащий к категории свободного ПО. Основными достоинствами Apache считаются надёжность и гибкость конфигурации. Он позволяет подключать внешние модули для предоставления данных, использовать СУБД для аутентификации пользователей, модифицировать сообщения об ошибках.
Литература:
- Марк Саммерфилд. Программирование на Python 3. Подробное руководство. М.: Издательство «Символ-Плюс», 2009.
- Малыхина М. П. Базы данных: основы, проектирование, использование. С.-П.: БХВ-Петербург, 2004.
- Скот Хоккинс. Администрирование web-сервера Apache. М.: Издательский дом «Вильямс», 2001.
- Каллан Р. Основные концепции нейронных сетей = The Essence of Neural Networks First Edition. — М.: Вильямс, 2001. — 288 с. — ISBN 5–8459–0210-X.