Schinglov usulining ilmiy maqolalari printsipi ilmiy maqolalari. Shingl - sirli va tushunarsiz

Schingles algoritmi (shinglar - inglizlar. Plitkalar, tarozilar) matnni nusxalash uchun mo'ljallangan. "Fuzzy" so'zi ikki karra vaqt o'tishi aniq emas, balki xiralashganligini anglatadi. Masalan, dublikat nafaqat chiziqlar, balki alohida iboralar ham bo'lishi mumkin. Asosan, shingal algoritmni o'zgartirish Antiplagiat tizimlari, qidiruv spam, nusxa ko'chirish, nusxa ko'chirish, shuningdek qayta yozishning o'ziga xosligini aniqlash uchun ishlatiladi.
Singls - Shaxsiy ayrim qismlari (substratsiya) tanasini taqqoslaganda tanlangan, bu bir qator so'zlarning o'ziga xosligini tekshirish uchun ketma-ket so'zlar bilan. Shingles qisqacha shingldan ko'ra har qanday so'zlarda bo'lishi mumkin, natijada aniq natija natijasi bo'ladi.
Matnni ochishning turli xil usullari mavjud:
- bir-birlari, Shinlas kesishmaydi

Subrsting oldingi substingning bir qismini o'z ichiga olganida;

Shingllar va shingilda yoki belgilar sonini shakllantirish usuli, shuningdek bitta substratsiyaning o'zgarishi (qancha so'z yoki belgilar o'zgaradi) natijaning to'g'riligiga qat'iy ta'sir qiladi. O'lchamni aniqlashda, substing tanlovi hisoblash kuchiga, xotira hajmiga va kerakli natijalarga bog'liq.
Onlayn SEO-Tank xizmati yordamida siz algoritm parametrlarini moslashtirishingiz mumkin. Siz o'z matningizni resursimizga o'zgartirishingiz, asl nusxa bilan taqqoslashingiz mumkin, agar kerak bo'lsa, orqaga qaytaring va yangi tuzatishlar qiling.

Shinglaklarga ajratilgandan keyin (pastki qism), shuningdek, tekshirishni hisoblashda turli xil yondashuvlar ham mavjud va ularni matnning o'xshashligini baholash uchun ularni yanada taqqoslash. Nazorat summasini turli allithlar (Sha1, Sha3, CRC32, MD5) orqali olish orqali olish mumkin. Keyinchalik, siz olingan tekshiruvlar tasodifining ikkita taqqoslangan matnlari uchun aniqlashingiz kerak. Bizning xizmatimiz shingal algoritm yordamida plagiat yoki noyob matnni onlayn tarzda aniqlash imkonini beradi. U matn qarz olish foizini hisoblaydi. Bunday holda, biz to'liq nusxa, to'liq yoki perition, qisman bir xil matn qismlarini mustaqil ravishda yozishning iloji yo'qligi sababli biz mutlaqo ikki nusxa nusxa ko'chirish haqida gaplashamiz. Ushbu algoritm qidiruv tizimlari va antiplagiat tizimlaridan foydalaniladi. Reiting sifatini va onlayn matnni qarz olish darajasi aniqlang

Samarali taqqoslash uchun algoritmning to'g'ri parametrlarini o'rnatishingiz kerak. Shingqoni qanchalik kichik bo'lsa, tasodifiy so'zlar aniqlanadi. Shuningdek, smenada, takroriy og'zaki versiyalar "sakrash" ehtimoli ko'proq. Biroq, shunchalik ko'p matn, bunda tasodiflarni topish oson (agar ular bo'lsa), bittaning minimal qiymatini tanlashning hojati yo'q. Muhim! Katta matnda aniqroq ishlash sekinroq bo'lishi mumkin!

Ko'pincha shingal algoritm "o'qituvchi talabalar moddiy-o'qituvchilariga talabalarga o'quvchilarga talabalarga beriladi" deb yoza olmaydi. Darhaqiqat, shingitm asosida xizmatlarni tekshirish Xizmatlarning ko'plab iboralar noyobdir, ammo ular qidiruv tizimlari uchun bir xil bo'lsa ham. Ishning algoritmining kamchiliklarida emas, balki matnni olish (tozalash) usulida emas. Agar kovalizatsiyada morfologiya qo'llanilgan bo'lsa, ya'ni barcha so'zlar uning normal shakllariga beriladi, algoritm ularning tugashidan qat'i nazar, iboralarni osonlikcha tanlaydi. Bu so'zning normal shakli - bu AGUNTIYA SAQLANMAYDI, FECK uchun yagona raqam belgilangan shaklga ega va hk.

Shishlar algoritmning ijrosi sizga ikkita hujjatning identifikatsiyalanish darajasini aniqlash imkonini beradi. Zelenkov Yu. G. va Segagalovich I.V. Veb hujjatlarini taqqoslash uchun bir tomonlama smetitllar printsipini batafsil bayon qilingan "fuzzy dublikatlarini aniqlash usullarini qiyosiy tahlil qilish".

Nashr mualliflari hujjatlar identifikatori aniqlash texnikasini tahlil qilishadi. Ular 84-Random Schinglovning tahlil qilingan matnidan tasodifiy namunani ishlatadigan SEDLOV algoritmining versiyasini taklif qiladilar.

Tasodifiy tanlangan to'lov qiymatidan foydalanish tasodifiy ravishda tasodifiy ravishda ALGORITMni Superxitm va Megashinglov darajasiga tarjima qilishga imkon beradi, ularning sig'imi sezi kamroq.

Fuzzzzzzzy-ni aniqlash algoritmini bilish matnlarni yozishda muammolardan qochadi. Siz quyidagi amallarni tanlashingiz mumkin, bunda matn uni taqqoslashda o'tadi:

  • matnni kanonizatsiya qilish;
  • uni urish uchun ajrating;
  • statik funktsiyalar orqali hisob-kitoblar, 84-uyali Shinglov;
  • qiymatlarning tasodifiy tanlanishi 84 ta tekshiruv;
  • natijani taqqoslash va aniqlash.

Taqqoslash kerak bo'lmagan barcha yordamchi matn bo'linmalaridan tortib, asl nusxani yagona normal shaklga olib chiqish (old va kasaba uyushmalar, tinish belgilari, teglar va boshqalar). Shuningdek, sifatlarning nomlarini olib tashlash mumkin, chunki ular semantik yuk emas, balki hissiy, hissiy, hissiyot.

Matnni qondirish, shuningdek, otlarga nominatsion ishni, faqat raqamga, ba'zan esa ularning ildiz qadriyatlarini qoldirishni talab qiladi.

Ushbu operatsiyalardan so'ng, taqqoslash uchun mos "toza" matnni o'zgartiradi.


2. Matnning qisqarishi uchun.

Shingles (ingliz tilidagi tarozilardan) - matnning ayrim qismidan tanlangan, matnning ayrim qismlari, uning o'ziga xosligini tekshirish uchun ma'lum bir so'z bilan.

Yakkiqlar har qanday so'zlarda bo'lishi mumkin - 3 dan 10 gacha. Yagona bittasi qisqaroq, chekning natijasi bo'ladi. 3 so'zdan iborat bo'lganida, 100% o'ziga xoslik, o'ziga xoslik matnning o'ziga xosligidan dalolat beradi, chunki iboralar tasodifan deyarli har qanday matnda topilgan.

Taqqosli matnlar boshqa so'zlarga (bir-biridan ishlayotgan) so'zlarni ajratish va 10 so'zdan iborat SECLA uzunligini aniqlash kerak. Bunday namunasi sodir bo'lmaydi, ammo hisob-kitoblar - bu kafolat beradi qidiruv tizimi Yagona satr ishlamaydi.

Schinglovning olingan to'plamlari, keyingi har bir matnning har birida paydo bo'lganidan keyin, bitta uzunlikdagi (-11) dan (+1) bir uzunligi (-11) ni (-11) shaklidagi so'zlarning soniga teng.




3. Shinglovning hashamutni hisoblash.

Yagona algoritm printsipi "Schinglov" ning tanlangan tanlangan tekshiruvi (keyingi ko'rsatilgan holda).

Algoritmning harakatlarining mohiyati taqqoslash uchun cheklarning to'g'ri sonini topishdir. Qattiq tartibsizlikning haddan tashqari ko'payishi natijaga salbiy ta'sir ko'rsatadi, natijada ko'proq operatsiyalar taqqoslash uchun ko'proq operatsiyalar chiqariladi, bu esa taqqoslash uchun kamayadi.

Matnni engillashtirish uchun matn 84-chi statik xesh funktsiyalarida har birida hisoblangan tekshiruvlar shaklida keltirilgan. Barcha 84 satr (hujjatlarning har biri uchun) tegishli chegirma bilan tavsiflanadi.

84 qiymat tasodifiy tanlangan har bir hujjat uchun - har bir hujjat uchun - va ularning tekshiruvi funktsiyalariga muvofiq taqqoslanadi. Boshqacha qilib aytganda, matnlarni taqqoslash uchun sizga 84 ta operatsiya kerak bo'ladi.




4. Tasodifiy tanlab olish 84 ta tekshiruv qiymatlari.

84 tanlangan massivlarning elementlarini taqqoslashda unumdorlikni oshirish uchun, har bir qator uchun tasodifiy tekshiruvlar namunasini yaratish kerak. Oxirida har bir qatordan minimal qiymatni tanlash har bir funktsiyalarning har biri uchun yagona cheklarning eng kichik qiymatlarini beradi.




5. Natija oling.

Ikkala hujjatning 84 ta elementlarining har birining har birini taqqoslash bir xil qiymatlarning nisbati aniqlanadi, bu shaxsning shaxsiy darajasini yoki har bir matnning o'ziga xosligi aniqlashga imkon beradi.


Tarkibning o'ziga xosligi

Noyob tarkib har qanday saytni targ'ib qilish uchun kerak. Shu bilan birga, asl nusxadan foydalanishning ko'rsatkichi va boshqa tarkib resurslaridan olingan va o'ziga xoslik. Oddiy nusxalash matn ma'lumotlari Nafaqat foydasiz emas, balki qidiruv tizimlarining sanktsiyalariga ham ta'sir qildi.

Maqolalarni ko'paytirishda shingl

Hech bo'lmaganda hech bo'lmaganda maqolalarning takrorlanishini amalga oshirgan har bir kishi bunday narsalarga duch kelishi kerak edi shiraf qilmoq. Ko'pchilik ushbu atamaning mohiyatini tushunishga harakat qilmayapti. Buni boshlang'ich optimalitiklar bilan aloqa misolida qayd etish mumkin.

Maqolalarni takrorlashni buyurishda dialogning odatiy namunasi:

  • 1 - Men 95% dan past bo'lmagan o'ziga xoslikni kutaman!
  • 2 - Yagona tekshiruvning qaysi bosqichida matnlarni?
  • 1 - nima shiraf qilmoq?
  • 2 - maqolada taqqoslash uchun ishlatiladigan parametr.
  • 1 - Mana men maqolalarni joylashtirishni amalga oshiraman. Ularning indeksatsiyalangandan so'ng, qanday o'ziga xoslik bo'ladi? Menga Shinglovsiz ayting, menga ular haqida yozmang.

Bular ba'zan texnik vazifani muhokama qilishda ba'zan birjalar sodir bo'ladi. Ushbu muammo meni aniqlashga harakat qildi: nima algoritm Shinglov Va "ular nima eyish" optimal vositalari. Ushbu maqola ko'rib chiqishning to'liqligi yoki atamaning klassik ta'rifi bo'yicha qo'llanilmaydi. Bizning vazifamiz - bu maqolani ko'paytirishga urinishda o'ziga xoslikni aniqlashda qanday foydalanish mumkinligini tushunishdir.

Bu manba matnining bir qismidir.

Shingle - bu bir necha bor, so'z so'zlari ketma-ket bo'lgan zanjir. Amaliyotda ishlatilgan shingl hajmi 3 dan 10 gacha so'z. Matnlarni taqqoslash uchun massila shakllantiring. Massiv zanjirlari izchil emas va guruch. 3-bosqichda bunday qatorda bir qator misol keltiraman.

Manba matni - "birinchi ikkinchi uchinchi beshinchi so'z".
Olingan massiv:

  • Birinchi ikkinchi uchinchi uchinchi
  • ikkinchi uchinchi to'rtinchi
  • uchinchi to'rtinchi beshinchi
  • to'rtinchi beshinchi oltinchi
  • beshinchi oltinchi so'z

Massiv uzunligi Shingla bosqichining uzunligi plyus uzunligi minus uzunligi soniga teng. 7-3 + 1 \u003d 5-misolda. Bundan tashqari, qator olishdan oldin, matn normallangan. Normallashtirish jarayoni to'xtash so'zlari, oldidagi tugmachalar, klass, raqamlar, raqamlarni va boshqalarni bekor qilishdir. Har bir matn uchun qatorni olganimizdan so'ng, maqolalar o'rtasida o'ziga xoslik foizini hisoblash juda oson. Maqolalarning o'ziga xosligini hisoblash - ularning umumiy sonidan teng bo'lmagan shinglar foizi. Ba'zi matnlarda maqolaning o'ziga xosligini hisoblash uchun biz ushbu maqolani qolganlari bilan taqqoslashimiz va minimal natijani olishimiz kerak.

Tekshirishda ishlatiladigan bitta o'lchamda

Darhol qarshi savol tug'iladi: siz matnlarni qaysi maqsadda taqqoslayapsiz? Agar biz faqat o'zlari o'rtasidagi maqolalarning o'ziga xosligini o'rganishimiz kerak bo'lsa, shunda javob oddiy - qisqaroq shiraf qilmoqBundan tashqari, matnlar noyobdir. Men tushuntirib beraman: Masalan, 5 so'zdan 95%, 10 so'zdan iborat 95% ga teng. Buni boshqacha aytish mumkin: 97% ni 10 ta so'z bilan birlashtirishi taxminan 5 so'z uzunligi 90% ni tashkil qiladi. Va agar biz ushbu matnlarning o'ziga xosligini qidirish moslamasining nuqtai nazaridan (joylashtirish va indekslashdan keyin) nuqtai nazaridan (joylashtirish va indekslashdan keyin) aniqlashni taxmin qilishimiz kerak bo'lsa, unda aniq javob bo'lmaydi. Bir narsa faqat bitta narsani ta'kidlashi mumkin: kichikroq shingl hajmi Va o'ziga xoslik foizining yuqori qismida, qidiruv dvigatelingiz maqolalariga sodiq bo'lgan narsalar bo'ladi. Bu lahzada birinchi marta o'z veb-saytlarini yaratishga qaror qilgan va uni noyob tarkib bilan to'ldirganlarni hisobga olish kerak.

Matnning o'ziga xosligining foizi va uning hajmi

Va yana bir eslatma. Asl maqola keng tarqalgan matnlarning o'ziga xosligining yuqori foiziga erishish qiyinroq. Va bu aniq matnning o'ziga xosligining foizi Bu Searlaning tasodifiy zanjirlari nisbati, maqolada bitta zanjirlarning umumiy soniga nisbati teng. Qisqa matnda bitta zanjirning umumiy soni kichik. Shunga ko'ra, vaziyat yomonroq bo'ladi. Bundan tashqari, yozayotganda seo matnlari Qisqa zichlikdagi maqolalarda kalit so'rovlar ostida kalit so'zlar muqarrar ravishda yuqori bo'ladi. Maqolalarning ko'payish amaliyoti shuni ko'rsatadiki, uzunligi 3 so'zdan ko'proq vaqtning 1-3 asosiy iboralari matnning o'ziga xosligining yaxshi foizini olish qiyinlashadi. Ushbu qoida, ayniqsa, 2K belgidan iborat maqolalar uchun juda muhimdir.

Shingles usuli barcha dasturlarni takrorlash dasturlarida qo'llaniladi

Maqolalarni ko'paytirish dasturi ko'p sonli ko'p sonli matnlarni taqqoslashning juda munosib tezligiga erishishga imkon beradigan yagona algoritmni ko'paytirish dasturi qo'llaniladi. Va bu, o'z navbatida, matn paydo bo'lishi tezligini oshiradi. Ma'lumot uchun CRC algoritm sizga Schinglov qatorlari bilan ishlashga imkon beradi, ammo ularning tekshiruvlari bilan, tabiiy tezlikni oshiradi (raqamlarni taqqoslash qatorlar taqqoslashdan ko'ra tezroq kattalik tartibidir).

Biz sizning buyurtmalaringizni resurslar va kopirma-koperingni resurslar orqali restederatsiyani takrorlashingizni kutmoqdamiz: //www.site

Bitta matn - matnning o'ziga xosligi tekshiriladi.

Bizning kanalimizda ko'proq video - Internet Marketingni semanpa bilan o'rganing

Tekshirish usuli eng ishonchli. U 1997 yilda paydo bo'lgan va hali ham eng mashhur bo'lib qoladi. Keyingi tekshirish uchun bitta ajratish algoritm juda oddiy, ko'p vaqt talab qilmaydi.

Turli xil usul - bu har xil narsalarni yaratish juda mashhur. Bu sizga noyob maqolalarni sinonimdan tanib olishga imkon beradi.

Qanday ishlash kerak shinglar

Matn kontekstining yakuniy kontekstining yakuniy ko'rsatkichi qisqa uzunligi bilan bog'liq bo'ladi. Agar bitta sonning o'lchami 1 so'zga o'rnatilgan bo'lsa, unda Internetda bir nechta matnlar mavjud bo'lib, ular allaqachon shunga o'xshash so'zni o'z ichiga oladi. Natijada sinovdan o'tgan kontekstning o'ziga xosligining foizi nolga teng bo'ladi.

Agar siz belgilangan o'n so'z asosida amalga oshiriladigan tekshiruvni ko'rsatsangiz, belgilangan hujjatning o'ziga xosligi balandligida bo'ladi. Ko'pincha, ketma-ket o'nta so'z bir nechta matnlarda takrorlanmaydi.

Algoritmning qaysi jumlalarini qanday ishlashini angladik, keling, noyob va tug'ilmagan bo'laklarni qanday izlashning misolini ko'rib chiqamiz matn hujjati.

  • 1: kvartirani tozalash;
  • Yagona: ta'mirlangandan keyin kvartiralar;
  • SHAME 3: ta'mirlangandan so'ng.

Masalan, biz eritma iboralar qanday kesilganini ko'rib chiqdik.

Avtomatlashtirilgan rejimdagi turli xil dasturlar orasida o'ziga xos matnlarni tekshiradi, juda murakkab kesish algoritmlari mavjud.

  • To'xtash so'zlardan va keraksiz so'zlardan tozalanmasdan.
  • To'xtash so'zlaridan va keraksiz so'zlardan butun matn hujjatini tozalash bilan.

Birinchi algoritm to'liq tekshiruv manbaini o'zgartirmaydigan tamoyilga ishlamoqda. Hujjat shu shaklda o'ziga xoslik uchun tekshiriladi.

Ikkinchi algoritm, yanada murakkab jarayonni amalga oshiradi. Manba matnli matn tarkibini tekshirishda barcha so'zlar yoki iboralar yo'q bo'lib ketadi foydali ma'lumotlar va ma'nosi (matnlarni optimallashtirishda bu so'zlar suvga tegishli)

Har qanday xonada ta'mirlangandan keyin kvartirani tozalash qisqa vaqt ichida amalga oshiriladi: yuqori sifatli va muloyimlik bilan.

Tekshirish jarayonida matn tozalanadi va quyidagilar olinadi:

Kvartirani ta'mirlash uchun kvartirani ta'mirlash imkon qadar tezroq amalga oshiriladi: sifat jihatidan yaxshi.

Adrego plagiatsion dasturida bitta o'lchamda

Siz Ademo ismli qisqa, siz matn hujjatini tasdiqlash yaxshiroq va aniqroq bo'lganingiz bo'ladi. Ommabop dasturga ko'ra Adrego plagiatsiyasi. O'rtacha 4-5 so'z. Bu miqdor matnning haqiqiy o'ziga xosligiga ishonch hosil qilish uchun etarli. Agar siz bitta 3 o'lchamini belgilasangiz, unda noyoblik to'g'risidagi audit, albatta, o'yin to'plamlari bilan Internetdagi kontkaltajni topadi.

Masalan, "men seni sevaman" iborasi 3 so'zdan iborat jumlada, bu minglab maqolada juda muhimdir.

Algoritm Shinglov (shingllangan (shingles) bu plitka, sharqqa) matnni nusxalash uchun Fuzzy qidirish uchun mo'ljallangan. "Fuzzy" so'zi ikki karra vaqt o'tishi aniq emas, balki loyqa ekanligini anglatadi. Masalan, dublikat nafaqat chiziqlar, balki alohida iboralar ham bo'lishi mumkin. Asosan, algoritmning o'zgarishi Spamga qarshi kurashish uchun qidiruv tizimlari tomonidan foydalaniladi. Bu sizga bir-biringizga qidiruv natijalari yoki to'liq bir xil matnlardan boshqa matnlarni chiqarib tashlash imkonini beradi. Biroq, birlamchi manba muammosi qolmoqda, i.e. Qaysi manba ushbu ma'lumot Birinchisida paydo bo'ldi. Qidiruv tizimlari ushbu haqiqatni aniq tuzatishga ishonishiga qaramay, ammo har qanday tizimda muvaffaqiyatsizliklar mavjud. Ushbu usul bilan bog'liq savolni batafsil ko'rib chiqing, keling, bu qanday ayyor ovqatlanishini ko'raylik!

Shinglov usulining algoritmi

Matnning har bir qismi uchun ma'lum bir belgi hisoblab chiqiladi, bunga qandaydir tarzda ushbu matnni aniqlashni aniqlovchi vazifa. Matnning ushbu ramziy matnlari bir-birlariga, bir-birlariga, shuning uchun hech qanday ramz yoki so'z yo'qolishi kerak. Keyingi, ushbu tekshiruvlarning butun to'plamidan, har qanday mezonlarga mos keladiganlar tanlangan, hatto ba'zi raqamlarga bo'linadi. Natijada, namunaning bir tekis tarqatish to'g'risidagi qonunga ega, u matnning har qanday qismiga e'tibor qaratmaydi. Natijada, agar ikkita kodlangan matnlar o'rtasida nazorat summasi bo'lsa, matnlarning o'xshashligi aniq. Va tasodiflar qanchalik ko'p bo'lsa, matnlarga o'xshash narsalar.

Siz bitta kodlash moslamasini turli yo'llar bilan tanlashingiz mumkin. Siz o'lchamdagi qadamdan ramzi yoki bir nechta belgilar bilan foydalanishingiz mumkin va siz so'z yoki bir nechta so'zlarni olishingiz mumkin. Keyin, siz "Qo'ng'iroqlar" dan (oldingi qismning bir qismini kiritishni) yoki quyidagi qismini qo'shishingiz kerakligini aniqlashingiz kerak - bu natijaning to'g'riligiga ta'sir qiladi. O'nta so'z yoki o'nta belgidan iborat substing o'lchamini aniqlang, tanlov hisoblash quvvatiga, xotira hajmiga va natijalarning to'g'riligiga bog'liq. Sochni takrorlanadigan joylarni, tinish belgilari va hatto old harflardan tozalash afzalroq, chunki Ular maxsus ma'lumotlarni yuk tashishmaydi.

Schinglov usulining algoritm-dan foydalanish misoli

A A.S. she'ridan bir oz o'zgartirilgan parchalarni ko'rib chiqing Pushkin

Asl matn:

"
Buru Milite jannat
Bo'ron
U qanday hayvonni yutib oladi
Keyin bolaliging
- ishda Schinglov usulining algoritmi
"

Ozgina maydalangan matn:

"
Bo'ron oq tuproq egilib,
Bo'ron
Qanday qilib sher g'alaba qozonadi
Keyin bolaliging
- Schinglov usulining algoritm
"

Qalin sifatida, so'zni tanlang. Substring uzunligi 5 ta so'zga teng bo'ladi. Biz kesishmada (bir-biringiz) qatorlar qilamiz. Matn kichik ekan, keyin so'zlar
Natijada, biz 5-raqamda kodlangan matnni uzunligimiz bilan olamiz.

Anjir. 1 misol sxemasini sminglov tartibi

Bu erda biz birinchi holatda so'zlar to'plami bor:
Buryamglyunibrochyvi | Qor-chipedokzvev | Onzavettoplakukkak | Dieta Algoritmmetodlovliq | ish
Xash:
| | | |

va ikkinchisi:
Buryabelemzevukrottirhri | Snezhexrujathatoklev | Onzavettoplakukkak | Dieta Algoritmmetodlovnoma | boshlamoq
Xash:
| | | |

Natijada, bizda bir tasodif bor edi - uchinchi raqam (C0C522529B0E810E810.93b210cc99966). Ushbu tasodif, ikkita matn orasida kamida 25% yo'qligini ko'rsatadi. Albatta, bunday kichik matn uchun qadamni kamaytirish mumkin edi, ammo bunday dastlabki parametrlar bilan ham yaxshi namunadir.

Boshpana

Agar har bir matn hatto Shinglovning biron bir mezonlari tomonidan qisqartirilgan bo'lsa, u hali ham ko'p miqdordagi hujjatlarni hisoblashning ko'p miqdorida hisoblash kuchi juda katta miqdorda hisoblash kuchi keng tarqalgan bo'lib, baribir ishlatilishi juda katta bo'lib qoladi. Shuning uchun amalda, "Supers yuvish" deb nomlangan yana bir tekshiruvum, ko'pincha Shinglovning bir qatorida hisoblanadi. Shunday qilib, Schinglovning to'liq tuzatilgan to'plamlari bo'lgan hujjatlar keyin hisobga olinadi.

Schinglov usuli Algoritm kuzatuvlar

Biroq, buni ta'kidlash kerak bu lahzada Yaxshilangan takroriy aniqlik algoritmlaridan foydalaniladi. Masalan, loyqa dublikatlarni aniqlash uchun alternativ algoritm Yandexda yaratildi va ixtiro qilindi. O'zgartirilgan algoritm - bu qidiruv tizimi indeks hujjatiga egalik qiladigan hujjat (yoki teskari indeks) shaklida indeks hujjatiga ega va bu vaziyat deyarli nusxalarni topish tartibida ishlatilishi mumkin.

PHP-da Schinglov usulining yaqinlashish usuli

Keling, PHP-dagi yagona algoritmni namoyish etish uchun tavsif va manba kodini beraylik. Biz qidiruv tizimiga taqlid qilamiz

Dastlab, faylni tarmoq orqali yuklab olishingiz kerak. Buni PHP-da oddiy funktsiya yordamida amalga oshirish mumkin:

// faylni $ urlga qo'ying ?> // PHP funktsiyasi yordamida teglarni o'chirish ?>

Biz kerakli o'zgaruvchini aniqlaymiz

// massiv stress $ Xesh_MSS \u003d Caslay (); // Array Hesh Stress qiymatlari $ Tmp \u003d "; ?\u003e

Bir qator so'zlarni yarating. Split mezon sifatida biz bo'sh joydan foydalanamiz.

// yana standart PHP funktsiyasi ?>

Biz qator qatlamni hosil qilamiz. Ushbu funktsiyada biz shunchaki beshta bo'lak so'zlarni bir-biriga bog'laymiz.

Biz Hash qadriyatlarini shakllantiramiz:

Taqqoslash funktsiyasi sifatida biz oddiy bültadan funktsiya funktsiyalarida foydalanamiz, tasodifning foizi ko'rsatiladi.

"Tasodifiy foizi:". $_counter * 100 / o'lchami ($ Xesh_MASS1); ?\u003e
Do'stlaringiz bilan baham ko'ring yoki o'zingiz uchun tejang:

Yuklash ...