Anonim

Ја водим веб локацију за клијента на којој приказују велику базу података које су тачно и споро прикупљали током година. Своје податке проналазе на мрежи на разним местима. Више него вероватно да ће то бити последица скрепера који пролази кроз њихову страницу по страницу и извлачи потребне податке у сопствену базу података. И у случају да се питате, они знају да су то њихови подаци због једног засађеног податка у свакој категорији на њиховој веб локацији.

Провела сам доста истраживања о томе у последњих пар дана и могу вам рећи да не постоји савршено решење за све улов. Открио сам неколико ствари које могу учинити да ово постигну мало теже. Ово сам имплементирао за клијента.

Ајаксифицирани пагинирани подаци

Ако имате пуно страница са пагинираним подацима и пагинирате податке тако што ћете на крај УРЛ-а додати други број, тј. Хттп://ввв.домаин.цом/цатегори/программинг/2 - тада правите посао гусјенице толико лакши. Први проблем је што је то у лако препознатљивом узорку, па је постављање стругача на ове странице лако као пита. Други проблем, без обзира на УРЛ следећих страница у категорији, више је вероватно да ће се на њих наћи следећа и претходна веза.

Учитавањем пагинираних података путем ЈаваСцрипта без поновног учитавања странице, ово значајно отежава посао многим скенерима. Гоогле је тек недавно започео анализу ЈаваСцрипта на страници. Мали је недостатак уметања оваквих података. Гоогле-у пружате неколико мање страница да индексирају, али, технички, пагинирани подаци би сви требали бити усмјерени на коријенску страницу са категоризацијом. Ајаксификујте странице са подацима на страницама.

Рандомирај излаз шаблона

Стругачи ће често бити мало прилагођени вашим подацима. Они ће се везати за одређени див ид или класу за наслов, трећу ћелију у сваком реду за ваш опис итд. Постоји лако препознатљив образац за који већина скелара може радити са већином података који долазе из исте табеле, приказује се по истом предлошку. Насумично подесите своје ИД-ове див и имена класа, убаците насумичне ступце празне таблице са 0 ширином. Покажите своје податке у табели на једној страници, у стилским див-овима и комбинацији на другој шаблони. Представљањем ваших података предвидљиво и тачно може се избрисати.

ХонеиПот

Ово је прилично уредно у својој једноставности. Наишао сам на ову методу на неколико страница о спречавању стругања места.

  • Креирајте нову датотеку на вашем серверу која се зове готцха.хтмл.
  • У датотеку роботс.ткт додајте следеће:
    Кориснички агент: *
    Онемогући: /готцха.хтмл

    Ово говори свим роботима и пауковима који индексирају вашу веб локацију да не индексирају датотеку готцха.хтмл. Било који уобичајени веб претраживач поштује жеље ваше датотеке роботс.ткт и неће приступати тој датотеци. тј. Гоогле и Бинг. Можда желите да реализујете овај корак и сачекате 24 сата пре него што пређете на следећи корак. Ово ће осигурати да вас алат за индексирање не блокира случајно због чињенице да је већ било на пола претраживања приликом ажурирања датотеке роботс.ткт.
  • Поставите везу на готцха.хтмл негде на вашој веб локацији. Није битно где. Ипак бих препоручио у подножју, проверите да ли ова веза није видљива, у ЦСС-у, екран: ниједан;
  • Сада забележите ИП / опште информације о прогонству који је посетио ову страницу и блокирајте их. Алтернативно, можете смислити скрипту која ће им пружити нетачне и смеће. Или можда лепу личну поруку вама од њих.

Редовни веб гледаоци неће моћи да виде везу, па је случајно нећете кликнути. Угледни претраживачи (на пример Гоогле) поштоваће жеље вашег роботс.ткт и неће посетити датотеку. Дакле, једини рачунари који би требало да наиђу на ову страницу су они који имају злонамерне намере или неко гледа ваш изворни код и насумично клика около (и добро, ако се то догоди).

Постоји неколико разлога због којих то не може увек успети. Прво, много сцраперс-а не функционира као уобичајени веб претраживачи и не откривају податке праћењем сваке везе са сваке странице на вашој веб локацији. Стругалице су често уграђене тако да се фиксирају на одређеним страницама и прате само одређене структуре. На пример, стругач може да се покрене на страници са категоријама, а затим му се каже само да посећује УРЛ адресе са речју / подацима у папучици. Друго, ако неко покреће свој стругач на истој мрежи као и други, а користи се дељени ИП адреса, имаћете забрану коришћења целе мреже. Морали бисте имати врло популаран веб сајт да би ово могао представљати проблем.

Пишите податке у покрету

Пронађите мање поље података, а не нужно и дуге низове текста јер то може додатно отежати обликовање странице. Излажући ове податке унутар слике, осећам се прилично самоуверено да постоје методе у сваком програмском језику како би се текст динамички написао на слику (у пхп, имагеттфтект). Ово је вероватно најефикасније код нумеричких вредности јер бројеви пружају много безначајнију СЕО предност.

Алтернатива

Ово није опција за овај пројекат. Захтијева се пријава након одређеног броја прегледа странице или приказивање ограничене количине података без да сте пријављени. Тј. Ако имате 10 ступаца, приказујете само 5 корисницима који нису пријављени.

Не правите ову грешку

Не трудите се да смислите неко решење засновано на корисничком агенту робота. Ове информације лако може преварити стругач који зна шта раде. На примјер, гоогле бот се може лако опонашати. Више него вероватно не желите да забраните Гоогле.

Спречавање стругања места