
Michael Cain
0
4363
143
Ako imate web stranicu 10 načina za stvaranje male i jednostavne web stranice bez pretjeranog obrazovanja 10 načina za stvaranje male i jednostavne web stranice bez prekomjernog ubijanja, WordPress može biti pretjerano uništenje. Kao što dokazuju ove izvrsne usluge, WordPress nije krajnji kraj svih web stranica. Ako želite jednostavnija rješenja, možete izabrati razne. , vjerojatno ste čuli za datoteku robots.txt (ili “standard za isključenje robota”). Bez obzira na to imate li ili ne, vrijeme je da naučite o tome, jer je ova jednostavna tekstualna datoteka presudan dio vaše web lokacije. Možda se čini beznačajno, ali mogli biste se iznenaditi koliko je to važno.
Pogledajmo što je datoteka robots.txt, što radi i kako je ispravno postaviti za svoju web lokaciju.
Što je datoteka robots.txt?
Da biste shvatili kako datoteka robots.txt funkcionira, morate malo znati o tražilicama Kako funkcioniraju tražilice? Kako funkcioniraju tražilice? Google je mnogima Internet. To je vjerojatno najvažniji izum otkad Internet. I dok su se tražilice od tada dosta promijenile, temeljni su principi i dalje isti. , Kratka verzija je da oni šalju “štramplice,” koji su programi koji pretražuju internet radi informacija. Potom pohranjuju neke od tih podataka kako bi ih kasnije mogli usmjeriti.
Ovi gusjeničari, također poznati kao “robota” ili “pauci,” pronađite stranice s milijardi web mjesta. Tražilice im daju upute gdje krenuti, ali pojedine web stranice mogu komunicirati s robotima i reći im koje stranice trebaju gledati..
Većinu vremena zapravo rade suprotno i govore im koje stranice čine ne treba biti gledan. Na web-lokacijama pretraživanja ne mogu se prikazivati stvari poput administrativnih stranica, pomoćnih portala, stranica s kategorijama i oznaka i ostalih stvari koje vlasnici web lokacija ne žele prikazati. Ove su stranice i dalje vidljive korisnicima i dostupne su svima koji imaju dozvolu (što je često svima).
Ali govoreći tim paucima da ne indeksiraju neke stranice, datoteka robots.txt svima čini uslugu. Ako ste tražili “Iskoristiti” Na tražilici želite da se naše administrativne stranice prikazuju visoko na ljestvici? Ne. To nikome ne bi koristilo, pa kažemo tražilicama da ih ne prikazuju. Može se koristiti i za sprečavanje pretraživača da provjere stranice koje im mogu pomoći u klasificiranju vaše web stranice u rezultatima pretraživanja.
Ukratko, robots.txt govori web alatima za indeksiranje što treba učiniti.
Mogu li indekseri zanemariti robots.txt?
Zanemaruju li paukci ikada datoteke robots.txt? Da. Zapravo, mnogi alati za indeksiranje čini ignoriraj to. Međutim, općenito ovi alati nisu sa uglednih tražilica. Oni su od neželjene pošte, kombajna za e-poštu i drugih vrsta automatiziranih robota koji lutaju internetom. Važno je to imati na umu - korištenje standarda za izuzeće robota kako bi se reklo da se drže dalje nije učinkovita mjera sigurnosti. Zapravo, neki roboti mogu početak sa stranicama koje im kažete da ne idu.
Međutim, tražilice će raditi kao što kaže datoteka robots.txt sve dok je ispravno oblikovana.
Kako napisati datoteku robots.txt
Postoji nekoliko različitih dijelova koji idu u standardnu datoteku za izuzeće robota. Ovdje ću ih podijeliti pojedinačno.
Izjava o korisničkom agentu
Prije nego što botu kažete koje stranice ga ne bi trebao gledati, morate odrediti s kojim bot razgovarate. Većinu vremena koristiti ćete jednostavnu deklaraciju što znači “svi botovi.” To izgleda ovako:
Korisnički agent: *
Zvezdica stoji “svi botovi.” Međutim, mogli biste odrediti stranice za određene botove. Da biste to učinili, morat ćete znati ime robota za koji postavljate smjernice. To bi moglo izgledati ovako:
Korisnički agent: Googlebot [popis stranica koje se ne mogu indeksirati] Korisnički agent: Googlebot-Image / 1.0 [popis stranica koje se ne mogu indeksirati] Korisnički agent: Bingbot [popis stranica koje se ne mogu indeksirati]
I tako dalje. Ako otkrijete robota da ne želite uopšte indeksirati web mjesto, to možete i odrediti.
Da biste pronašli imena korisničkih agenata, potražite useragentstring.com [Nema više dostupnih].
Onemogućavanje stranica
Ovo je glavni dio datoteke za izuzimanje robota. Jednostavnom deklaracijom poručujete robotu ili grupi botova da ne indeksiraju određene stranice. Sintaksa je laka. Evo kako biste onemogućili pristup svemu u “admin” direktorij vaše web stranice:
Onemogući: / admin /
Ta linija bi sprečavala botove da ne pretražuju vašite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html i sve ostalo što spada pod administracijski direktorij.
Da biste onemogućili jednu stranicu, samo je navedite u retku zabrane:
Onemogući: /public/exception.html
Sada je “izuzetak” stranica se neće izvući, ali sve ostalo u “javnost” mapa će.
Da biste uključili više direktorija ili stranica, samo ih navedite na sljedećim retcima:
Onemogući: / private / Disallow: / admin / Disallow: / cgi-bin / Disallow: / temp /
Ta će se četiri retka primijeniti na god korisničkog agenta koji ste naveli na vrhu odjeljka.
Ako želite spriječiti botove da gledaju bilo koju stranicu na vašoj web lokaciji, koristite ovo:
Onemogući: /
Postavljanje različitih standarda za Botove
Kao što smo vidjeli gore, možete odrediti određene stranice za različite botove. Kombinirajući prethodna dva elementa, evo kako to izgleda:
Korisničko sredstvo: googlebot Disallow: / admin / Disallow: / private / User-agent: bingbot Disallow: / admin / Disallow: / private / Disallow: / secret /
“admin” i “privatna” odjeljci će biti nevidljivi na Googleu i Bingu, ali Google će vidjeti “tajna” mapu, dok Bing neće.
Možete odrediti opća pravila za sve botove pomoću asteriskkog agenta, a zatim dati posebna uputstva za botove u narednim odjeljcima..
Stavljajući sve zajedno
Uz prethodno znanje, možete napisati cijelu datoteku robots.txt. Samo otpustite svoj omiljeni uređivač teksta (obožavatelji smo Sublime 11 Savjeti za uzvišeni tekst za produktivnost i brži tijek rada 11 Savjeti za uzvišeni tekst za produktivnost i brži tijek rada Uzvišeni tekst je svestran uređivač teksta i zlatni standard za mnoge programere. savjeti se usredotočuju na učinkovito kodiranje, ali općeniti korisnici će cijeniti prečace na tipkovnici ovdje okolo) i započnite davati robotima obavijest da nisu dobrodošli u određenim dijelovima vaše web lokacije..
Ako želite vidjeti primjer datoteke robots.txt, samo idite na bilo koju web lokaciju i dodajte je “/robots.txt” do kraja. Evo dijela datoteke Giant Bicycles robots.txt:
Kao što vidite, postoji prilično nekoliko stranica koje se ne žele prikazivati na tražilicama. Uključili su i nekoliko stvari o kojima još nismo razgovarali. Pogledajmo što još možete učiniti u datoteci za izuzeće robota.
Lociranje vašeg Sitemapa
Ako vaša datoteka robots.txt kaže botovima gdje ne U tom slučaju, vaš Sitemap čini suprotno Kako stvoriti XML Sitemap u 4 jednostavna koraka Kako stvoriti XML Sitemap u 4 jednostavna koraka Postoje dvije vrste sitemapova - HTML stranica ili XML datoteka. HTML karta web stranice je jedna stranica koja posjetiteljima prikazuje sve stranice na web mjestu i obično ima poveznice na one…, i pomaže im da pronađu ono što traže. I dok tražilice vjerojatno već znaju gdje je vaš sitemap, ne boli ih opet obavijestiti.
Deklaracija za lokaciju Sitemapa je jednostavna:
Sitemap: [URL web-lokacije]
To je to.
U našoj vlastitoj datoteci robots.txt izgleda ovako:
Sitemap: //www.makeuseof.com/sitemap_index.xml
To je sve.
Postavljanje kašnjenja indeksiranja
Direktiva za odlaganje indeksiranja određuje određene tražilice koliko često mogu indeksirati stranicu na vašoj web lokaciji. Mjeri se u sekundi, iako neke tražilice to različito tumače. Neki vide odgodu puzanja od 5 kao što im govori da pričekaju pet sekundi nakon svakog indeksiranja kako bi pokrenuli sljedeću. Drugi to tumače kao upute za samo indeksiranje jedne stranice na svakih pet sekundi.
Zašto biste rekli alatu da ne puzi što je više moguće? Da biste sačuvali propusnost 4 načina Windows 10 troši propusnost vašeg interneta 4 načina Windows 10 troši propusnost vašeg interneta Da li Windows 10 troši propusnost vašeg interneta? Evo kako provjeriti i što možete učiniti da to zaustavite. , Ako se vaš poslužitelj bori da ne bude u korak s prometom, možda biste trebali pokrenuti kašnjenje indeksiranja. Općenito, većina ljudi se ne mora brinuti zbog toga. Velike web lokacije s velikim prometom možda će htjeti malo eksperimentirati.
Evo kako postavljate odgodu indeksiranja od osam sekundi:
Kašnjenje puzanja: 8
To je to. Neće se sve tražilice pridržavati vaše direktive. Ali, ne smeta pitati. Kao i kod onemogućavanja stranica, možete postaviti različita kašnjenja indeksiranja za određene tražilice.
Prijenos datoteke robots.txt
Nakon što postavite sve upute u svojoj datoteci, možete je prenijeti na svoju web lokaciju. Provjerite je li riječ o običnoj tekstnoj datoteci i ima li naziv robots.txt. Zatim ga prenesite na svoju web lokaciju kako bi se mogao pronaći na vašite.com/robots.txt.
Ako koristite sustav za upravljanje sadržajem 10 najpopularnijih online sustava za upravljanje sadržajem 10 najpopularnijih sustava za upravljanje sadržajem na mreži Danima ručno kodiranih HTML stranica i savladavanje CSS-a odavno su prošli. Instalirajte sustav za upravljanje sadržajem (CMS) i za nekoliko minuta možete imati web mjesto koje ćete dijeliti sa svijetom. kao što je WordPress, vjerojatno postoji specifičan način kako to trebate poduzeti. Budući da se razlikuje u svakom sustavu za upravljanje sadržajem, morat ćete se obratiti dokumentaciji za svoj sustav.
Neki sustavi mogu imati internetska sučelja i za prijenos vaše datoteke. Za njih jednostavno kopirajte i zalijepite datoteku koju ste stvorili u prethodnim koracima.
Ne zaboravite ažurirati svoju datoteku
Posljednji savjet koji ću vam dati je da povremeno pregledate vašu datoteku za izuzeće robota. Vaša se web stranica mijenja i možda ćete trebati napraviti neka podešavanja. Ako primijetite čudnu promjenu u prometu svoje tražilice, dobro je provjeriti i datoteku. Moguće je i da bi se standardna nota u budućnosti mogla promijeniti. Kao i sve ostalo na vašoj web lokaciji, vrijedi to provjeriti svaki put.
Koje stranice izuzimate alate za indeksiranje na vašoj web lokaciji? Jeste li primijetili bilo kakvu razliku u prometu tražilice? Podijelite svoje savjete i komentare u nastavku!