King Kong (1/10) -elokuvaleike - Ihmisen uhri (2005) HD

Tässä on outo, jota en ole varma mitä tehdä. Tänään yrityksemme verkkokauppasivusto laski. Räätäsin tuotantolokin ja huomasin, että saimme paljon pyyntöjä tältä IP-alueelta 157.55.98.0/157.55.100.0. Googlen ympärilläni ja sain selville, että se on MSN-web-indeksoija.

Joten lähinnä MS-web-indeksoija ylikuormitti sivustoamme, jolloin se ei vastannut. Vaikka robots.txt-tiedostossamme on seuraava;

Crawl-delay: 10 

Joten mitä tein, vain kiellettiin IP-alue iptablesissa.

Mutta mitä en ole varma tehdä täältä, on kuinka seurata. En löydä mistään yhteyttä Bingiin tästä asiasta, en halua pitää näitä IP-osoitteita estettyinä, koska olen varma, että lopulta poistamme indeksoinnin Bingiltä. Ja ei todellakaan näytä siltä, ​​että näin olisi tapahtunut kenellekään muulle.

Mitään ehdotuksia?

Päivitä, Oma palvelin / verkkotilastot

Verkkopalvelimemme käyttää Nginx-, Rails 3- ja 5 Unicorn-työntekijöitä. Meillä on 4 Gt muistia ja 2 virtuaalista ydintä. Olemme käyttäneet tätä asetusta jo yli 9 kuukautta, eikä meillä ole koskaan ollut ongelmaa, 95% ajasta järjestelmämme on hyvin vähän kuormitusta. Keskimäärin saamme 800 000 sivun katselukertaa kuukaudessa, ja tämä ei koskaan tule lähelle verkkopalvelimen tuontia / hidastamista.

Katsomalla lokeja, joita saimme missä tahansa 5 - 40 pyynnöstä / sekunnissa tältä IP-alueelta.

Kaikkien verkkokehitysvuosieni aikana en ole koskaan nähnyt indeksoijan osuneen verkkosivustolle niin monta kertaa.

Onko tämä uusi Bingin kanssa?

  • 2 Tee tämä a ohjelmointi kysymys, voit kysyä, kuinka korjata sivustosi, jotta se toimii riittävän hyvin ollakseen julkisessa Internetissä.
  • Esität oikean kysymyksen väärässä paikassa;)
  • Jos joku indeksointirobotti rikkoo sivustosi, sivustollasi on todennäköisesti enemmän ongelmia kuin indeksointirobotissa (sen lisäksi, että indeksointirobotti ei kunnioita robots.txt-tiedostoa, johon sinun ei pitäisi koskaan luottaa: -)).
  • On mahdollista, että sinun robots.txt tiedoston direktiivejä ei kunnioiteta muotoiluongelman takia - voitko lähettää tiedoston koko sisällön tarkistettavaksi?
  • @PeeHaa, kiitos vastauksesta, kyllä ​​en voi luottaa siihen, että indeksoija kunnioittaa robots.txt-tiedostoni. Mutta päivitin kysymykseni joillakin palvelintilastoilla. Jos sinulla on muuta oivallusta, kiitän sitä suuresti.

Rekisteröidy Bingin verkkovastaavan työkaluilla ja täytä heidän indeksointinopeuskaavionsa. Aseta se nopeimpaan indeksointiin poissaolosi aikana ja paljon alennettuun hintaan vilkkaimpina aikoina.

Jos Bing kaataa verkkosivustoasi, sinun on harkittava verkkopalvelimen kapasiteettia uudelleen. Paras testi on selvittää, voitko selviytyä Google, Bing, Yahoo ja Baidu, jotka kaikki osuvat järjestelmään kerralla. Jos se pysyy käytössä hyökkäyksen aikana, olet valmis reaaliaikaiseen asiakaskuormitukseen.

Kyllä, Bing voi lyödä sinua melko kovasti, jos et ole antanut heille rajaa. Se aiheutti minulle vakavia asioita kaksi kuukautta sitten. Hienosäädin vain järjestelmän käsittelemään sitä ja se oli hyvä asia, muuten Musta perjantai olisi johtanut erittäin siniseen maanantaina palvelintilastojen tarkastelun jälkeen.

  • Olen tehnyt sen - enkä toimi ollenkaan ....
  • Asensitko verkkosivustosi tunnistavan tiedoston BWT: lle ja tarkistaitko, että he ovat vahvistaneet sen? Jos Bing ei tunnista sivustoa, indeksointinopeushistogrammi ei tee mitään liikenteen rajoittamiseksi.
  • Kyllä, sivustoni on vahvistettu, tarkistan sen vain. Olen leikannut heidät nyt palomuurilla ... rauhoittumaan, mutta Bingin tuki on kuitenkin erittäin ystävällistä, minulla on yhteys heihin, he suosittelevat minua lisäämään robots.txt-tiedostoon tämän rivin crawl-delay: 10 se ei ole eetteri, ja nyt he pyytävät minulta lokeja, jotka olen kaikki valmis lähettämään, etsimään niitä.
  • "Paras testi on selvittää, voitko selviytyä Google, Bing, Yahoo ja Baidu kaikki osumasta järjestelmääsi kerralla. Jos se pysyy käytössä hyökkäyksen aikana, olet valmis reaaliaikaiseen asiakaskuormitukseen." << Asiakkaat ansaitsevat rahaa, jos Google, Bing, Yahoo ja Baidu lähettävät NOLLA liikennettä, heidän pitäisi mielestäni estää. Minun mielestäni ei ole järkevää käyttää indeksointirobotteja, jotka väärinkäyttävät sivustoa tapana ladata verkkosivustoja.
  • 1 @blunders - ja koska Bing, Google ja Yandex ovat suurin osa verkkosivustomme liikenteen lähteistä, meidän on selviydyttävä kaikista niistä, jotka skannaavat verkkosivustoamme samanaikaisesti. Arvaa, mitä Baidulle tapahtuu täällä -> Scrapheap. Heh, väite pitää edelleen paikkansa, että verkkosivustosi on kestettävä indeksoinnin valitsemiesi web-indeksoijien toimesta tai se ei ole ollenkaan verkkosivusto.

Käytä PHP plus Regex. Unohda Robots.txt. Useat huonot botit eivät kunnioita sitä ...

if (preg_match('/(?i)bingbot/',$_SERVER['HTTP_USER_AGENT'])) { exit(); } 

Ja kerrot Bingille: ovi on suljettu sinulle!

  • 2 Hyvä valinta, jos et ole riippuvainen saapuvasta liikenteestä Bing / Live / MSNSearchistä. Tämä indeksoi verkkosivustosi kokonaan heidän kanssaan ja tekee melko hyvää työtä vähentämään verkkopalvelinten kuormitusta.
  • Kiitos Fiasco. Mielestäni BingBot on paha botti, koska ne toimivat kuin Web Ripper. Jos verkkovastaava on riippuvainen Bingistä ansaitsemaan tuloja, joten hänen on harkittava yhä useamman resurssin ostamista sen tekemiseksi. Bing oli kielletty kaikilla 95 sivustollani. Onnea kaikille.
  • 1 Kommenttini oli melkein, mutta ei aivan kielen poskessa. Olen saanut sekä Yahoo: n että Bingin lyömään sivustoani kerralla ja melkein ottamalla sivuston polvilleen. Kuormitus oli huonompi kuin Yandex, mikä on aiemmin aiheuttanut minulle surua. Yandex on itse asiassa päivittänyt sisäisen toimintansa toimimaan enemmän kuin Google, eikä rasittamaan tavaroita niin kauhistuttavasti. Baidu ja Bing ovat nyt yhtäläisin ehdoin, koska ne ovat liian aggressiivisia ja vaativat palvelimen viritystä ylimääräisen liikenteen käsittelemiseksi.
  • Jos halutaan kieltää käyttäjäagentin perusteella, sinun kannattaa kieltää ne palvelimen kokoonpanossa.

Bingbotia voidaan hallita kahdella tavalla; katso lisätietoja osoitteesta http://www.bing.com/webmaster/help/crawl-control-55a30302.

Jos et halua käyttää heidän ohjauspaneeliaan, käytä vain robots.txt tiedosto.

"Jos löydämme a crawl-delay: robots.txt-tiedostossa, se on aina etusijalla tämän ominaisuuden tietoihin nähden. "

työskennellyt sinulle: Charles Robertson | Haluatko yhteyttä?