Основные алгоритмы проверки уникальности контента | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 30 ноября, печатный экземпляр отправим 4 декабря.

Опубликовать статью в журнале

Авторы: ,

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №21 (80) декабрь-2 2014 г.

Дата публикации: 11.12.2014

Статья просмотрена: 865 раз

Библиографическое описание:

Киба, М. Р. Основные алгоритмы проверки уникальности контента / М. Р. Киба, М. К. Хмель. — Текст : непосредственный // Молодой ученый. — 2014. — № 21 (80). — С. 13-16. — URL: https://moluch.ru/archive/80/14334/ (дата обращения: 16.11.2024).

Рассмотрены основные алгоритмы, благодаря которым проводят проверку уникальности ведущие поисковые системы и программы. Перечислены основные задачи интернет-продвижения.

Ключевые слова: шинглы, перцептивный хэш, SEO, SEO-копирайтинг, SMM, SMO.

 

На текущий момент времени все большую и большую популярность получает продвижение товаров и услуг с помощью интернета. Для продвижения продукта или услуги в социальных сетях, как правило, используют следующие мероприятия: SEO (search engine optimization), SMM (social media marketing), SMO (social media optimization), CPA (cost per action) и др.

Актуальность SEO (поисковой оптимизации) состоит в том, что с каждым годом увеличивается доля интернет-коммерции, а продвижение сайтов в поисковых системах получает большее распространение и популярность [1]. В то же время комплекс работ по SEO сравнительно недорого стоит и имеет высокую эффективность, в отличие от стандартной рекламы. Основные принципы SEO:

-          Успешный сайт, привлекающий внимание покупателей, выполняющий свои основные задачи [2];

-          Сайт находится в зоне видимости по всем необходимым запросам;

-          На сайте публикуется только уникальный контент: как текст, так и изображения;

-          Ведется оптимизация кода;

-          Проводятся грамотные работы по внешней оптимизации;

-          Ведется непрерывная работа с поведенческими факторами.

Основные задачи SMM (продвижения в социальных сетях) состоят не только в том, чтобы увеличить долю доверия к товару или услуги, но еще и продавать услугу или товар с помощью социальных сетей. Социальные сообщества могут получать новых клиентов не только внутри сети, но еще и посредством поискового трафика. К основным принципам SMM можно отнести:

-          Публикация только качественного контента;

-          Размещение рекламы эффективно;

-          Прямое взаимодействие с целевой аудиторией;

-          Расширение партнерской сети (поиск новых партнеров в социальных сетях);

-          Постоянное развитие [3].

Из общих принципов продвижения в интернете видно, что уникализация контента играет одну из ключевых ролей. Существуют различные способы уникализации изображений и текстов. В основном алгоритмы уникализации строятся на математически алгоритмах, которые в дальнейшем используют поисковые машины для правильного ранжирования web-страниц.

Уникализация изображений.

Достаточно часто для уникализации изображений на сайте или в социальном сообществе используется алгоритм перцептивный хэш.

Перцептивные хэш-алгоритмы предназначены для описания классов функций для генерации сравнимых хэшей. Основные характеристики изображения могут использоваться для генерации индивидуального отпечатки, затем эти отпечатки сравнивают между собой.

Основное отличие перцептивного хэша от стандартных криптографических функций вида MD5 и SHA1 состоит в том, что при сравнении можно сделать вывод о степени различия наборов данных. В то время, как сравнение двух хэш-кодов в функциях вида SHA1 можно делить только на два вида:

Если хэш-коды отличаются друг от друга, данные разные

Если хэш-коды совпадают, скорее всего, данные одинаковые (однако, есть вероятность коллизий, поэтому одинаковые хэши не являются гарантом одинаковых данных).

Алгоритмы вычисления перцептивного хэша имеют базовые свойства:

-          Картинку можно изменять в размере

-          Края изображения могут быть обрезаны.

-          Можно менять цветовые характеристики (яркость или контраст).

Однако после этих процедура данные совпадают по хэшу.

Алгоритмы поисковых машин вычисляют уникальность (несовпадения) изображений по следующему алгоритму:

-          Первым действием является уменьшение размера. Как правило, картинка сжимается до размера 8х8, общее число пикселей в таком изображении составляет 64. Таким образом, хэш соответствует различным вариантам изображения, независимо от размера.

-          Следующий шаг — обесцвечивание изображения. Данная маленькая картинка переводится в градации серого, так, что хэш уменьшает значение с 64 пикселей до 64 значений цвета.

-          После этого поисковая машина начинает искать среднее. Вычисляет среднее значение для 64 цветов.

-          Следующий этап — построение цепочки битов. В данной ситуации для каждого цвета идет присваивание 0 или 1, в зависимости от того, какое получили значение на предыдущем шаге: больше или меньше среднего.

-          Заключительный этап заключается в простроении хэша. Переводится 64 отдельных бита в одно 64-битное значение. Порядок сохраняется [4].

Исходя из этой информации, можно сделать вывод:

Если изображение при проверке на уникальность обрезается и обесцвечивается, то мало просто изменить цвет картинки или нарисовать рамку для ее уникализации. Главный шаг для того, чтобы изменить финальный хэш изображения — сдвиг на несколько градусов. При повороте изображения, его сжатие будет давать совсем другую картину сжатых пикселей. А значит, начиная с первого шага проверки, изображение будет уже совсем новым. Такой алгоритм также называют «финт Зидана». Математически это можно представить следующим образом:

Имеем m-канальное n-мерное изображение:

Применяем DoG-фильтр (difference of Gaussians) для изображения I с помощью функций:

Полученное в результате вычитания изображения I из Гауссовской дисперсии  от образа I, сжатого с меньшей дисперсией  c.

И центрирование в случае двумерного изображения:

Уникализация текста.

Самым главным способом уникализации текста является копирайтинг. Копирайтинг — создание текста, который будет носить рекламный или презентационный характер. Часто данные тексты выкладываются на страницах web-сайтов и в коммерческих социальных сообществах. Одна из отличительных особенностей таких текстов: уникальность. Существует такая разновидность копирайтинга — SEO-копирайтинг. Он применяется не только на сайтах, но и в социальных сообществах в разрезе SMO (social media optimization). SEO-копирайтинг отличается от обычного копирайтинга лишь тем, что в тексте должно присутствовать указанное количество ключевых слов. Ключевые слова — те слова, по которым ведется продвижение товара или услуги в интернете. Таким образом, можно сформулировать основные задачи SEO-копирайтинга:

-          Продвижение сайта или социального сообщества в поисковых системах с помощью ключевых слов:

-          Корректное и удобное представление информации для пользователей на текущем web-ресурсе;

-          Качественное маркетинговое описание товара или услуги.

Однако, алгоритмы поисковых систем регулярно проверяют тексты на уникальность. Благодаря такой проверке web-ресурсы с уникальными изображениями и текстами поднимаются в поиске выше, а страницы с ворованным контентом опускаются или вовсе блокируются. Самые распространенные алгоритмы проверки на уникальность: шингловые и нешингловые (корреляционные).

Шингловые алгоритмы подразумевают под собой взятие за основу выявленных совпадений текстовых объектов, а именно:

Удаление из текста стоп-слов, а именно: союзов, предлогов, частиц, междометий, метоимений, вводных слов, которые не несут смысловой нагрузки;

Оставшийся текст делится на фрагменты заданной длины. Эти фрагменты будут именоваться шинглами.

Затем идет сравнение по хэш-функции слов, которые имеются в тексте с web-ресурсами.

В конечном итоге получаем общую уникальность, а также фразы, которые являются неуникальными.

Корреляционные алгоритмы проверяют тексты по наличию синонимов, перестановки слов в предложении. Проверка с помощью такого алгоритма происходит следующим образом:

-          Текст разделяется на несколько частей.

-          Для каждого слова в определенной части высчитывается его «вес» — частота использования.

-          Слова, имеющие наибольший «вес» участвуют в проверке.

-          Если в процессе поиска найдет web-ресурс со словами, которые сходятся по данному параметру, текст считается плагиатом.

Заключение:

Рассмотрев основные алгоритмы с математической точки зрения можно рассчитать итоговую вероятность уникальности своей страницы без применения специального программного обеспечения. Однако, текущие алгоритмы имеют ряд недостатков, одним из них является относительно высокая надежность. Полностью раскрыв алгоритмы проверки текстовой информации, можно варьировать релевантностью на просторах сети.

Информация о проверке на уникальность пригодилась бы многим, кто работает в сфере интернет-продвижения. Знания о данных алгоритмах могут намного упростить процесс продвижения, сделав его более профессиональным, качественным, эффективным, не увеличивая при этом затраты на работу. Помимо этого можно улучшить и усовершенствовать текущие алгоритмы поиска, в частности участвую в конкурсах, проводимых компаниями «Яндекс» и «Google».

 

Литература:

 

1.                   Крутько Е. А., Методы поисковой оптимизации (SEO) // Крутько Е. А., Битюцкая Н. И., XXII студенческая международная научно-практическая конференция

2.                   Ашманов И. С., Оптимизация и продвижение сайта в поисковых системах // Ашманов И. С., Иванов А. Б., Питер — 2008 г., с.44

3.                   Сенаторов А., Битва за подписчиков «Вконтакте». SMM-руководство, Альпина Паблишер — 2014 г., с.27

4.                   Статья о перцептивном хэше [Электронный ресурс] — URL:http://habrahabr.ru/post/65944/

5.                   «Molecular Expressions Microscopy Primer: Digital Image Processing — Difference of Gaussians Edge Enhancement Algorithm», Olympus America Inc., and Florida State University Michael W. Davidson, Mortimer Abramowitz

Основные термины (генерируются автоматически): SEO, SMM, SMO, алгоритм, текст, изображение, слово, хэш, CPA, социальное сообщество.


Ключевые слова

SEO, шинглы, перцептивный хэш, SEO-копирайтинг, SMM, SMO., SMO

Похожие статьи

Внедрение CRM-систем в управленческие процессы салона красоты

В данной статье рассмотрено внедрение CRM-систем в управленческие процессы салона красоты. Актуальность исследования связана с тем, что сегодня технологии играют ведущую роль в управленческих процессах. Выявлены процессы, которые можно автоматизирова...

Аутсорсинг в России сегодня: страхи и сомнения

В мировой практике аутсорсинг как схема взаимодействия с внешними поставщиками услуг давно стал признанным средством повышения эффективности работы предприятий. Но большинство российских компаний скептически относятся к привлечению независимых подряд...

Особенности маркетинга в банковской сфере

В статье рассматриваются особенности маркетинга в банковской сфере. Обосновываются его принципы, функции и задачи. Раскрыты особенности маркетингового микса для рынка банковских услуг.

Современные трекеры для IT-команд: выбор, функциональность, тенденции

В современном мире информационных технологий эффективное управление IT-командами становится все более важным аспектом успешной работы предприятий. Одним из ключевых инструментов для координации задач, контроля процессов и повышения производительности...

Современная методика оценки результатов обучения

В статье рассматривается методика современных подходов к оцениванию результатов обучения, среди которых особо следует отметить: портфолио, кейс-измерители, контекстные задачи, проекты. Использование данной методики способствует развитию познавательны...

Тренды по продвижению в социальных сетях

В данной статье рассматриваются основные тренды по продвижению и непосредственные способы взаимодействия с целевой аудиторией, имеющие наибольшую значимость в социальных сетях на 2021 год, а также важность маркетинга в интернете для любого бизнеса.

Маркетинг в социальных сетях как характерный признак сетевой экономики

Статья посвящена возможностям управления и продвижения брендов, товаров, услуг, идей в интернете с помощью SMM — инструментов. Рассмотрены предпосылки развития социальной среды в интернете. Преимущества, решаемые задачи, критерии эффективности исполь...

Социальные сети для продвижения бизнеса

В современном мире построение успешного бизнеса во многом зависит от рекламы в просторах интернета. Главным инструментом к достижению этой цели являются социальные медиа. В данной статье рассмотрены основные этапы составления SMM-стратегии, при помощ...

Партизанский маркетинг как метод «малобюджетного» продвижения в системе современных методов управления конкурентоспособностью предприятия

Авторами раскрывается сущность партизанского маркетинга, предполагающего поступательное установление контакта с целевой аудиторией посредством нестандартных по содержанию сообщений при минимальных финансовых ресурсах. В статье приводятся цель и особе...

О методах внедрения цифровых водяных знаков в потоковое видео

В данной статье дан обзор наиболее распространенных методов внедрения цифровых водяных знаков в потоковое видео, применяемые российскими и зарубежными специалистами. Рассмотрены такие алгоритмы, как дискретное косинусное преобразование, вейвлет-преоб...

Похожие статьи

Внедрение CRM-систем в управленческие процессы салона красоты

В данной статье рассмотрено внедрение CRM-систем в управленческие процессы салона красоты. Актуальность исследования связана с тем, что сегодня технологии играют ведущую роль в управленческих процессах. Выявлены процессы, которые можно автоматизирова...

Аутсорсинг в России сегодня: страхи и сомнения

В мировой практике аутсорсинг как схема взаимодействия с внешними поставщиками услуг давно стал признанным средством повышения эффективности работы предприятий. Но большинство российских компаний скептически относятся к привлечению независимых подряд...

Особенности маркетинга в банковской сфере

В статье рассматриваются особенности маркетинга в банковской сфере. Обосновываются его принципы, функции и задачи. Раскрыты особенности маркетингового микса для рынка банковских услуг.

Современные трекеры для IT-команд: выбор, функциональность, тенденции

В современном мире информационных технологий эффективное управление IT-командами становится все более важным аспектом успешной работы предприятий. Одним из ключевых инструментов для координации задач, контроля процессов и повышения производительности...

Современная методика оценки результатов обучения

В статье рассматривается методика современных подходов к оцениванию результатов обучения, среди которых особо следует отметить: портфолио, кейс-измерители, контекстные задачи, проекты. Использование данной методики способствует развитию познавательны...

Тренды по продвижению в социальных сетях

В данной статье рассматриваются основные тренды по продвижению и непосредственные способы взаимодействия с целевой аудиторией, имеющие наибольшую значимость в социальных сетях на 2021 год, а также важность маркетинга в интернете для любого бизнеса.

Маркетинг в социальных сетях как характерный признак сетевой экономики

Статья посвящена возможностям управления и продвижения брендов, товаров, услуг, идей в интернете с помощью SMM — инструментов. Рассмотрены предпосылки развития социальной среды в интернете. Преимущества, решаемые задачи, критерии эффективности исполь...

Социальные сети для продвижения бизнеса

В современном мире построение успешного бизнеса во многом зависит от рекламы в просторах интернета. Главным инструментом к достижению этой цели являются социальные медиа. В данной статье рассмотрены основные этапы составления SMM-стратегии, при помощ...

Партизанский маркетинг как метод «малобюджетного» продвижения в системе современных методов управления конкурентоспособностью предприятия

Авторами раскрывается сущность партизанского маркетинга, предполагающего поступательное установление контакта с целевой аудиторией посредством нестандартных по содержанию сообщений при минимальных финансовых ресурсах. В статье приводятся цель и особе...

О методах внедрения цифровых водяных знаков в потоковое видео

В данной статье дан обзор наиболее распространенных методов внедрения цифровых водяных знаков в потоковое видео, применяемые российскими и зарубежными специалистами. Рассмотрены такие алгоритмы, как дискретное косинусное преобразование, вейвлет-преоб...

Задать вопрос