Back to Question Center
0

సెమాల్ట్: దారోడార్ రోబోట్స్ ట్యాక్స్ను ఎలా నిరోధించాలో

1 answers:

Robots.txt ఫైల్ అనేది వెబ్ క్రాలర్లు లేదా బాట్లను ఎలా సైట్ను క్రాల్ చేయాలో సూచనలను కలిగి ఉండే ఒక సాధారణ టెక్స్ట్ ఫైల్. వారి అప్లికేషన్ స్పష్టంగా ఉంది శోధన ఇంజిన్ బాట్లను అనేక ఆప్టిమైజ్ వెబ్సైట్లు సాధారణంగా ఇవి. రోబోట్స్ మినహాయింపు ప్రోటోకాల్ (REP) లో భాగంగా, robots.txt ఫైలు ఇండెక్స్ చెయ్యటం వెబ్సైట్ కంటెంట్ యొక్క ఒక ముఖ్యమైన అంశంగా ఏర్పడుతుంది, అదే విధంగా వినియోగదారు అభ్యర్థనలను ధృవీకరించడానికి సర్వర్ను ఎనేబుల్ చేస్తుంది.

జూలియా Vashneva, సెమల్టల్ సీనియర్ కస్టమర్ సక్సెస్ మేనేజర్, లింక్ లింక్ మీ ఇంక్లోని ఇతర డొమైన్ల నుండి ట్రాఫిక్ పొందడం కలిగి, శోధన ఇంజిన్ ఆప్టిమైజేషన్ (SEO) యొక్క ఒక అంశం అని వివరిస్తుంది. లింక్ రసం బదిలీ చేయడానికి "ఫాలో" లింక్ల కోసం, సర్వర్ మీ సైట్తో ఎలా సంకర్షణ చెందిందో బోధకునిగా పనిచేయడానికి మీ వెబ్సైట్ హోస్టింగ్ స్పేస్లో ఒక robots.txt ఫైల్ను చేర్చడం అవసరం. ఈ ఆర్కైవ్ నుండి, కొన్ని నిర్దిష్ట వినియోగదారు ఏజెంట్లు ఎలా ప్రవర్తిస్తారో అనుమతించడం లేదా తిరస్కరించడం ద్వారా సూచనలు ఉన్నాయి.

ఒక robots.txt ఫైల్ యొక్క ప్రాథమిక ఫార్మాట్

ఒక robots.txt ఫైల్ రెండు ముఖ్యమైన పంక్తులను కలిగి ఉంటుంది:

యూజర్ ఏజెంట్: [యూజర్ ఏజెంట్ పేరు]

అనుమతించవద్దు: [URL స్ట్రింగ్ క్రాల్ చేయకూడదు]

పూర్తి robots.txt ఫైల్ ఈ రెండు లైన్లను కలిగి ఉండాలి. అయినప్పటికీ, వాటిలో కొన్ని వినియోగదారు ఏజెంట్లు మరియు మార్గదర్శకాల యొక్క బహుళ పంక్తులను కలిగి ఉంటాయి. ఈ ఆదేశాలను అనుమతిస్తుంది, అనుమతించవద్దు, అనుమతించదు లేదా క్రాల్ ఆలస్యం. ప్రతి లైన్ బోధనను విడదీసే ఒక లైన్ బ్రేక్ సాధారణంగా ఉంది. ప్రతి పంక్తి విరామం ద్వారా, ప్రత్యేకించి robots.txt కు బహుళ పంక్తులతో అనుమతించటం లేదా ఉపసంహరణ ఆదేశం వేరు చేయబడుతుంది.

ఉదాహరణలు

ఉదాహరణకు, ఒక robots.txt ఫైల్ వంటి సంకేతాలు ఉండవచ్చు:

యూజర్ ఏజెంట్: డారొడార్

అనుమతించవద్దు: / ప్లగిన్

అనుమతించవద్దు: / API

అనుమతించవద్దు: / _comments

ఈ సందర్భంలో, ఇది మీ వెబ్సైట్ని యాక్సెస్ చేయకుండా డారోడార్ వెబ్ క్రాలర్ను నిరోధించే బ్లాక్ robots.txt ఫైల్. ఎగువ వాక్యనిర్మాణంలో, ప్లగిన్లు, API, మరియు వ్యాఖ్యల విభాగం వంటి వెబ్సైట్ యొక్క కోడ్ బ్లాక్స్ అంశాలు. ఈ జ్ఞానం నుండి, ఒక రోబోట్ యొక్క టెక్స్ట్ ఫైల్ను ప్రభావవంతంగా అమలు చేయడం నుండి అనేక ప్రయోజనాలను పొందడం సాధ్యమవుతుంది. రోబోట్స్..txt ఫైళ్లు అనేక విధులు చేయగలరు. ఉదాహరణకు, వారు సిద్ధంగా ఉండవచ్చు:

1. అన్ని వెబ్ క్రాలర్లను వెబ్సైట్ పేజీలో అనుమతించండి. ఉదాహరణకు;

యూజర్ ఏజెంట్: *

అనుమతించవద్దు:

ఈ సందర్భంలో, అన్ని వెబ్ సైట్ లకు ఏ వెబ్సైటును పొందాలనే కోరికతో ఏ వెబ్ క్రాలర్ను ఆక్సెస్ చెయ్యవచ్చు.

2. నిర్దిష్ట ఫోల్డర్ నుండి నిర్దిష్ట వెబ్ కంటెంట్ను బ్లాక్ చేయండి. ఉదాహరణకు;

యూజర్ ఏజెంట్: Googlebot

అనుమతించవద్దు: / ఉదాహరణకు- subfolder /

యూజర్-ఏజెంట్ పేరు కలిగిన ఈ సింటాక్స్ గూగుల్కు చెందినది. ఇది స్ట్రింగ్ www.ourexample.com/example-subfolder/.(10 లో ఏదైనా వెబ్ పేజీని యాక్సెస్ చేయకుండా బాట్ను నియంత్రిస్తుంది.

3. నిర్దిష్ట వెబ్ పేజీ నుండి నిర్దిష్ట వెబ్ క్రాలర్ని బ్లాక్ చేయండి. ఉదాహరణకు;

యూజర్ ఏజెంట్: Bingbot

అనుమతించవద్దు: /example-subfolder/blocked-page.html

వినియోగదారు ఏజెంట్ బింగ్ బాట్ బింగ్ వెబ్ క్రాలర్లకు చెందినది. ఈ రకమైన robots.txt ఫైలు బింగ్ వెబ్ క్రాలర్ స్ట్రింగ్ www.ourexample.com/example-subfolder/blocked-page.

తో నిర్దిష్ట పేజీని యాక్సెస్ చేయకుండా నియంత్రిస్తుంది.

ముఖ్యమైన సమాచారం

  • ప్రతి యూజర్ మీ robts.txt ఫైల్ను ఉపయోగించరు. కొందరు వినియోగదారులు దీనిని విస్మరించాలని నిర్ణయించుకుంటారు. అటువంటి వెబ్ క్రాలర్లలో చాలా వరకు ట్రోజన్లు మరియు మాల్వేర్ ఉన్నాయి.
  • ఒక Robots.txt ఫైలు కనిపించడానికి, అది ఉన్నత స్థాయి వెబ్సైట్ డైరెక్టరీలో అందుబాటులో ఉండాలి.
  • అక్షరాలు "robots.txt" కేస్ సెన్సిటివ్. తత్ఫలితంగా, మీరు వాటిని కొన్ని మార్గాల్లో క్యాపిటలైజేషన్తో సహా ఏ విధంగానూ మార్చకూడదు.
  • "/robots.txt" పబ్లిక్ డొమైన్. ఏదైనా URL యొక్క కంటెంట్లను జోడించడం ద్వారా ఎవరైనా ఈ సమాచారాన్ని కనుగొనగలరు. మీరు వాటిని తప్పనిసరిగా ప్రైవేటుగా ఉండాలని కోరుకునే ముఖ్యమైన వివరాలు లేదా పేజీలను సూచించకూడదు.
November 29, 2017
సెమాల్ట్: దారోడార్ రోబోట్స్ ట్యాక్స్ను ఎలా నిరోధించాలో
Reply