Принцип на експлоатация на метода на Schinglov научни статии. Шингъл - тайнствен и неразбираем

Алгоритъм на Шингс (керемиди - английски. Плочка, везни) е предназначена за размити търсещи дубликати на текст. Думата "размита" означава, че преминаването на двойката не търси точно, но замъглено. Например, дублиране е възможно не само линии, но и отделни фрази. По принцип модификацията на алгоритъма на шината се използва от антиплагиатните системи, търсачките за борба с SPAM за търсене, копиране, както и за определяне на уникалността на пренаписването.
Сингли - избрани за сравнение от тялото на текстовите отделни части (подстригване), с определен брой думи в нейната последователност за проверка на уникалността. Крехите могат да бъдат на какъвто и да е няколко думи, отколкото на шлифоването, толкова по-точно ще бъде резултатът.
Има различни методи за разделяне на текст към херпес зостер:
- един друг, Shinlas не се пресича

Vansel, когато подстровъкът включва част от предишното подстригване;

Методът за формиране на керемиди и броя на думите или символите в шингъл, както и смяната на сингъл (колко думи или знаци са изместени) силно засяга точността на резултата. Когато определяте измерението, селекцията за подстроване зависи от изчислителната мощност, обемите на паметта и желаната точност на резултатите.
С помощта на онлайн услугата SEO-резервоар можете да регулирате параметрите на алгоритъма. Можете да промените текста си в нашия ресурс, да го сравните с оригинала и ако е необходимо, да се върнете назад и да направите нови поправки.

След разделянето на херпес зостер (подстрока) има и различни подходи за изчисляване на контролната сума и допълнително сравнение, за да се оцени сходството на текста. Контролните суми могат да бъдат получени чрез хеширане на различни алгоритми (SHA1, SHA3, CRC32, MD5). След това трябва да оцените съвпадението на получените контролни суми за два сравнени текстове. Нашата услуга ви позволява да дефинирате плагиатство или уникален текст, като използвате алгоритъма за шиене. Изчислява процента на заемането на текст. В този случай ние говорим изключително за дубликат, пълен или, в случай на поемане, частично, тъй като е невъзможно самостоятелно да пишете напълно идентични текстове. Този алгоритъм се използва от търсачките и антиплагиатските системи. Определят качеството на REWIT и степента на заемане на онлайн текста

За ефективно сравнение трябва да зададете правилните параметри на алгоритъма. Колкото по-малък е чашата, толкова по-точно ще бъдат разкрити на съвпадащите думи. Също така с промяна - по-вероятно да "прескачат" повтарящи се вербални ревизии. Въпреки това, колкото повече текст е, че е да се намерят съвпадения в нея (ако са) и няма нужда да се избира минималната стойност на единния. Важно! По-точна обработка на големия текст може да бъде по-бавна!

Често се пиша, че алгоритъмът на шината не може да определи самоличността на такива фрази като "учителят дава на учениците на учениците на учениците." Всъщност, много услуги за проверка на уникалността, базирани на алгоритъма на шингловете, ще покажат, че фразите са уникални, въпреки че са идентични за търсачките. Случаят не е в недостатъците на алгоритъма на синглите, но в методите за канонизиране на текста (почистване). Ако в канонизацията се използва морфология, т.е. всички думи се дават на нормалната му форма, алгоритъмът лесно разпознава фрази като същите, независимо от техните окончания. Нормалната форма на думата е за имунитет на съществителния имунитет, единственият номер за глагола е анефинирана форма и т.н.

Изпълнението на алгоритъма на шингловете ви позволява да определите нивото на идентичност на два документа. Зеленков Ю. Г. и Сегалович I.v. В своята работа, сравнителен анализ на методите за определяне на размити дубликати за уеб документи "описано подробно описания принцип на едностранни алгоритми за склона за сравняване на уеб документи.

Авторите на публикацията анализират техниката за определяне на самоличността на документите. Те предлагат версията на алгоритъма на Синглов, който използва случайна извадка от анализирания текст на 84-случаен Schinglov.

Използването на 84 тестови стойности на избраната контролна сума на случаен принцип ви позволява да преведете алгоритъма на нивото на алгоритъма на суперчана и Megashinglov, чийто способност е значително по-малък.

Познаването на алгоритъма, определящ размитите двойки, ще избегнат проблеми при писането на текстове за. Можете да изберете следните стъпки, чрез които текстът преминава при сравняването му:

  • канонизиране на текст;
  • разделете го на херпес зостер;
  • изчисления, чрез статични функции, 84-клетъчна Шинлов;
  • случайно вземане на проби от ценности 84 контролни суми;
  • сравнения и определяне на резултата.

Привеждане на оригиналния текст в една нормална форма чрез неговото почистване от всички спомагателни текстови единици (предлози, съюзи, препинателни знаци, етикети и т.н.), които не трябва да участват в сравнение. Възможно е също така да се премахнат имената на прилагателните, тъй като те, като правилни, са емоционални, а не семантично натоварване.

Канонизацията на текста също така изисква събиране на съществителни на съществителните в номинационния случай, единствения номер, а понякога - оставяйки само техните основни ценности.

След всички тези операции се оказва "чист" текст подходящ за сравнение.


2. Шачество на текста към херпес зостер.

Херпс (от английски - везни) - избрани за сравнение от тялото на статията отделните части на текста, с определен брой думи в нейната последователност за проверка на уникалността.

Синглите могат да бъдат на произволен брой думи - от 3 до 10. Единият е по-кратък, толкова по-точен ще бъде резултат от проверката. Когато е подходящо размерът на сингъл в 3 думи, тестът, който е дал 100% от уникалността, е доказателство за оригиналността на текста, тъй като съвпаденията на фрази се срещат в почти всеки текст.

Сравнително текстовете трябва да бъдат разделени на устойчивост (работещи помежду си) думи и да се определи дължината на сингла в 10 думи. Такава проба не се случва, но сметките - гарантира това система за търсене Нито един низов подстрока ще пропусне.

Получените комплекти Schinglov, след всеки един от текстовете, счупили подпоследника, са равни на броя на думите в документа минус единичната дължина (-10) плюс една (+1).




3. Изчисляване на хеширането на Шинлов.

Принципът на единния алгоритъм се основава на сравнението на произволно избраната контролна сума на Schinglov (подпоресности) на два документа.

Същността на действието на алгоритъма е да се намери правилния брой контролни пунктове за сравнение. Пресимереният брой на Шингс ще повлияе негативно в резултата, тъй като ще бъдат произведени много повече операции за сравнение, което ще намали производителността.

За да се улесни текстът, текстът е представен под формата на таблици с набор от контролни екземпляри, изчислени за всеки единствен в 84-та статични хеш функции. Всички 84 линии (за всеки от документите) се характеризират със съответната контролна сума.

84 стойностите са произволно избрани от двата комплекта - за всеки от документите - и в сравнение с функциите на тяхната контролна сума. С други думи, ще ви трябват 84 операции за сравняване на текстовете.




4. Случайни вземания 84 стойности на контролни точки.

За да се увеличи производителността при сравняване на елементите на всеки от 84 избрани масиви, е необходимо да се направи случайна извадка от контролни средства за всеки от редовете. Изборът на минималната стойност от всеки ред в крайна сметка ще даде набор от най-малките стойности на единичните проверки за всеки от функциите Hash.




5. Вземете резултата.

Сравнението на всеки от 84-те елементи на двата документа идентифицира съотношението на същите стойности, което позволява да се определи нивото на идентичност или уникалността на всеки от текстовете.


Уникалност на съдържанието

Уникалното съдържание е необходимо за насърчаване на всеки сайт. В същото време индикаторът за използването на оригинала и не е заем от други ресурси за съдържание и е уникалност. Просто копиране текстова информация Не само е безполезен, но и изпълнен със санкции на търсачките.

В репродукцията на статиите се използват

Всеки, който поне веднъж извърши възпроизвеждането на статии, трябваше да се изправи срещу такова нещо като schingle.. Мнозина не се опитват да разберат същността на този термин. Това може да се отбележи за примера за комуникация с оптимизатори за начинаещи.

Типичен пример за диалог при поръчка на възпроизвеждане на статии:

  • 1 - Очаквам уникалност не по-ниска от 95%!
  • 2 - С каква стъпка от единствената проверка на текстовете?
  • 1 - Какво е schingle.?
  • 2 е параметър, който се използва за сравнение, когато статията се възпроизвежда.
  • 1 - Тук ще направя разположение на статии. След индексацията им ще бъде уникалността? Просто ми кажи без Шинлов, не ми пишете за тях.

Това са приблизително диалозите понякога се случват при обсъждането на техническата задача. Този проблем ме накара да се опитам да разбера: какво е алгоритъм Шинглов И "с това, което ядат" оптимизатори. Този член не се прилага за пълнота на разглеждането или за класическата дефиниция на срока. Нашата задача е да разберем как се използва този неразбираем метод при определяне на уникалността, когато се опитваме да умножим статията.

Това е част от изходния текст.

Шлингът е верига, състояща се от няколко, в редица говорещи думи. На практика, използван размер на шингъл От 3 до 10 думи. Преди сравняване на текстовете да образуват масив. Веригите на масива не са последователно и месингът. Ще дам пример за такъв масив в стъпка 3 думи.

Изходен текст - "Първата секунда трета четвърта пета шеста дума".
Получения масив:

  • Първата втора трета
  • втората трета четвърта
  • трета четвърта пета
  • четвърта пета шеста
  • пета шеста дума

Дължината на масива е равна на броя на думите минус дължината на стъпката на шингла плюс един. В нашия пример 7-3 + 1 \u003d 5. Освен това, преди да получите масив, текстът се нормализира. Процесът на нормализация е да се изхвърлят стоп-думите, предлозите, синдикатите, символите, цифрите и др. След като получихме масив за всеки текст, лесно е да се изчисли процентът на уникалността между статиите. Изчисляване на уникалността на статиите - процент от неравномерни херпес от общия брой на тях в статии. За да изчислите уникалността на статията в някакъв набор от текстове, трябва да сравним тази статия с останалите и да предприемем минималния резултат.

Какъв размер на сингъл да се използва при проверка

Незабавно възниква брояч: За каква цел сравнението на текстовете? Ако трябва просто да научим уникалността на статиите помежду си, тогава отговорът е прост - по-кратък schingle.Освен това текстовете са уникални. Ще обясня: уникалност, например 95% на стъпка от 5 думи, "по-уникален" от същите 95% на стъпка от 10 думи. Може да се каже по различен начин: уникалността 97% с дължина от 10 думи е приблизително равна на уникалността от 90% с дължина от 5 думи. И ако трябва да предскажем уникалността на същите тези текстове от гледна точка на търсачките (след тяхното настаняване и индексиране), тогава няма точен отговор. Едно нещо може да спори само едно: колкото по-малко размер на шингъл И над процента на уникалността, толкова по-лоялни към вашите статии за търсачки ще бъдат. Този момент е особено необходим, за да се вземат предвид тези, които са решили да създадат собствен уебсайт за първи път и да го напълнят с уникално съдържание.

Процентът на уникалността на текста и неговия размер

И още една забележка. Колкото по-кратък е първоначалната статия, за да се постигне висок процент от уникалността на умножените текстове. И е ясно, защото процентът на уникалността на текста Тя е равна на съотношението на съвпаденията на сингла до общия брой вериги на сингъл в статията. В кратък текст общият брой на единичните вериги е малък. Съответно отношението ще бъде за по-лошо. Освен това, когато пишете sEO текстове при ключови заявки в кратки членове на плътността ключови думи ще бъде неизбежно по-високо. Практиката на възпроизвеждане на статии показва, че присъствието на 1-3 ключови изрази на дължината на повече от 3 думи значително затруднява получаването на добър процент от уникалността на текста. Това правило е особено важно за изделия по размер от 2K знака.

Методът на шингелите се прилага във всички програми за възпроизвеждане на програми

Програмата за възпроизвеждане на статии се прилага при използване на единния алгоритъм, метода на КРС, който дава възможност за постигане на много достойна скорост на сравняване на голям брой умножени текстове. И това от своя страна увеличава скоростта, с която се извършва генерирането на текст. За справка: алгоритъмът на КРС ви позволява да работите не с редовете на Шингов, но с техните контролни средства, които естествено увеличават скоростта (сравнението на номерата е по-бързо от сравненията на редовете).

Очакваме вашите поръчки да възпроизвеждат статии и копирайтинг на нашия ресурс http: //www.site

Единичен текст - части, на които е разделен текстът, от който се проверява уникалността.

Още видео на нашия канал - Научете интернет маркетинг със Semantica

Този метод за проверка е най-надежден. Той се появява през 1997 г. и все още остава най-популярната. Единичният алгоритъм за последваща проверка е прост, не изисква много време.

Единният метод е най-популярният при създаването на всякакви видове. Тя ви позволява да разпознавате уникалните статии от синонимизиране.

Как да работите с херпес

Окончателният индикатор на текстовия контекст на текстовия контекст ще зависи от изложената кратка дължина. Ако размерът на сингъл е поставен в 1 дума, тогава ще има няколко текста в интернет, които вече ще съдържат подобна дума. В резултат на това процентът на уникалността на тествания контекст ще бъде нула.

Ако зададете проверка, която ще се извършва въз основа на посочените десет думи, уникалността на проверения документ ще бъде на височина. Най-често десет думи подред няма да бъдат повторени в няколко текста.

Когато разбрахме как работи фразата за търсене на фрази, нека разгледаме по-подробно примера за това как търсенето на уникални и неродени фрагменти от текстов документ.

  • Shingle 1: Почистване на апартамент след;
  • Единични 2: апартаменти след ремонт;
  • Shingle 3: След ремонт.

В примера погледнахме как се отрязват топене на фрази.

Сред разнообразие от програми, които в автоматичен режим проверяват текстовете на уникалността, има доста сложни алгоритми за рязане.

  • Без да се очиства от стоп-думи и ненужни думи.
  • С почистването на целия текстов документ от стоп-думи и ненужни думи.

Първият алгоритъм работи принципът, че проверката напълно не променя текста на източника. Документът се проверява за уникалност във формата.

Вторият алгоритъм изпълнява по-сложен процес. Когато проверявате текстовото съдържание на източника, напълно всички думи или фрази се отстраняват, в които няма полезна информация и значение (при оптимизиране на текстовете, тези думи принадлежат на водата)

Почистването на апартамент след ремонт във всяка стая се извършва като кратко време: високо качество и нежно.

В процеса на проверка текстът се изчиства и се получава следното:

Почистването на ремонта на апартаментите се извършва възможно най-скоро: качествено спретнато.

Какъв е размерът на сингъл в програмата Advego Pligiatus

Колкото по-кратък, който показвате на Adgego Single, толкова по-добре и по-точна ще бъде проверката на текстов документ. Според популярната програма Adgego Plagiatus. Средната стойност е 4-5 думи. Това количество е достатъчно, за да се уверите в истинската уникалност на текста. Ако зададете размера на единния 3, тогава този одит на уникалността определено ще намери съвпадение с набори от съдържание в интернет.

Например, фразата "обичам те", състояща се от 3 думи, тя е наложителна в хиляда статии.

Algorithm Schinglov (Shingle (Shingles) от английския тази плочка, люспест) е предназначен за размиване на дубликати на текст. Думата "размита" означава, че преминаването на двойката не търси точно, но размазано. Например, дублиране е възможно не само линии, но и отделни фрази. По принцип модификацията на алгоритъма на шингловете се използва от търсачките за борба с Spam за търсене. Това ви позволява да изключвате текстове, подобни помежду си от резултатите от търсенето или напълно идентични. Въпреки това, проблемът с основния източник остава, т.е. Източник на кой тази информация Се появи в първия. Въпреки че се смята, че търсачките ясно определят този факт, но има неуспехи в нито една система. По-подробно разгледайте въпроса относно този метод, да видим с това, което е хранене с този чакъл!

Алгоритъм на метода Schinglov

За всяка част от текста (подстрока) се изчислява определен контролен субор, задачата на която по някакъв начин идентифицират този текст, е шината. Тези символични текстове на текста трябва да отидат на подхранката, така че да не изчезне символ или думата. След това, от целия набор от тези контролни суми, тези, които съответстват на всички критерии, са избрани - дори, са разделени на някакъв брой и т.н. В резултат на това пробата има еднакво право на разпространение, тя не се фокусира върху никоя част от текста. В резултат на това, ако ще има контролна сума между двата кодирани текста, сходството на текстовете е очевидно. И колкото повече съвпадения, толкова по-сходни с текстовете.

Можете да изберете единична кодираща единица по различни начини. Можете да използвате размер на стъпката със символ или няколко знака и можете да поемате дума или няколко думи. След това трябва да решите дали индексите "повикване" (включете част от предишния) трябва да бъде във вашия код - това засяга точността на резултата. Определете размерите на подстрока при десет думи или десет символа, изборът зависи от изчислителната мощност, обемите на паметта и точността на резултатите. За предпочитане е да се почисти изходния текст от повтарящи се пространства, препинателни знаци и дори предлози, защото Те не носят специална тежест.

Пример за използване на алгоритъма на метода Schinglov

Помислете за пример две леко модифицирани откъси от стихотворението А.С. Пушкин

Оригинален текст:

"
Буру Миле Небе
Вихърс
Как звярът ще спечели
След това плати като дете
- алгоритъм на метода Schinglov в работата
"

Леко смачкан текст:

"
Буря бяла земна мошеника,
Вихърс
Как лъв ще спечели
След това плати като дете
- алгоритъм на метода на Schinglov за начало
"

Като стъпка изберете думата. Дължината на подстрояването ще бъде равна на 5 думи. Ще направим линии в кръстовището (взаимно). Тъй като текстът е малък, тогава изключете думи
В резултат на това получаваме кодирания текст по дължина в 5-та числа.

Фиг. 1 Примерно оформление от Schinglov

Тук имаме набор от думи за първия случай:
Buryamglyunibokrochyvikhri | Сняг Чипекаквев | Onzavettoplakukkak | Dieta Algorithmmethodashinglov |. \\ T работа
Хеш:
| | | |

и второто:
Buryabelemzevukrotvikhri | Snezhekruzhatokaklev | Onzavettoplakukkak | Dieta AlgorithmmethodaShinglovna | start.
Хеш:
| | | |

В резултат на това имахме едно съвпадение - третото число (C0C522529B0E810F73B210CC972E9966). Това съвпадение показва, че между двата текста има не по-малко от 25%. Разбира се, за такъв малък текст е възможно да се намали стъпката, но и с такива първоначални параметри това е добър пример.

Supershingle

Ако всеки текст е дори намален с всеки критерий на Schinglov, той все още е за голямо количество документи за изчисляване на мощността, която трябва да се използва така или иначе, ще остане колосален. Ето защо, на практика, друга контролна сума, така наречената "надпика", често се счита за над набор от Schinglov. Следователно ще бъдат преброени документи с напълно съвпадащи набори от Schinglov.

Schinglov Метод алгоритъм наблюдения

Въпреки това трябва да се отбележи това този момент Използват се подобрени алгоритми за дублиране на дефиниции. Например, е създаден алтернативен алгоритъм за определяне на размити дубликати и изобретен в Yandex. Модифицираният алгоритъм е фактът, че търсачката има индексен документ под формата на обърнат файл (или обърнат индекс) и тази ситуация може да се използва в процедурата за намиране на почти дубликати.

Просто сближаване на метода Schinglov на PHP

Нека дадем под описанието и изходния код, за да демонстрираме един алгоритъм в PHP. Ние имитираме търсачката

Първоначално трябва да изтеглите файла в мрежата. Това може да се направи с проста функция на PHP:

// Получете файла на връзката $ URL адрес ?> // изтриване на етикети с помощта на PHP функцията ?>

Ние определяме необходимите променливи

// масив стрес $ heesh_mass \u003d масив (); // масив hesh стрес стойности $ Tmp \u003d "; ?

Създайте множество думи. Като разделен критерий използваме пространство.

// отново стандартната PHP функция ?>

Ние образуваме масив от подстрока. В тази функция просто сгъваме думите пет парчета заедно.

Ние образуваме масив от хеш ценности:

Като функция за сравнение, използваме прост бюст във функцията на функцията, се показва процентът на съвпадение.

"Процентът на съвпадение:". $ Sield_counter * 100 / размер ($ hesh_mass1); ?
Споделете с приятели или запазете за себе си:

Зареждане...