Míníonn Saineolaí Semalt Conas Suíomh Gréasáin AJAX a Scrapeadh ag Úsáid Python

Is modh é scrapáil gréasáin a úsáideann úsáid bogearraí chun sonraí a bhaint as leathanach gréasáin. Tá go leor uirlisí le húsáid chun an gréasán a scríobadh le python, cuid acu; Sky, Scrapy, Iarrataí, agus Anraith Álainn. Mar sin féin, tá an chuid is mó de na huirlisí seo teoranta toisc nach bhfaigheann siad ach HTML statach a thagann ón bhfreastalaí agus ní an chuid dinimiciúil a thugann JavaScript.

Mar sin féin, tá roinnt teicnící ann inar féidir an fhadhb seo a shárú:

1. Brabhsálaithe Uathoibrithe

Is féidir leat brabhsálaithe uathoibrithe a úsáid mar Seiléiniam nó Splancscáileán ar brabhsálaithe iomlána iad a ritheann gan cheann. Mar sin féin, is féidir iad a chur ar bun a bheith casta go leor, agus mar sin beimid ag díriú ar an dara rogha thíos.

2. Glaonna AJAX a thascradh

Is éard atá i gceist leis seo ná iarracht a dhéanamh glaonna AJAX a thascradh ón leathanach agus iarracht a dhéanamh iad a athsheinm nó a atáirgeadh.

San Airteagal seo, beimid ag díriú ar conas glaonna AJAX a ghabháil agus iad a athsheinm trí úsáid a bhaint as an Leabharlann Iarratas agus brabhsálaí Google Chrome. Cé go bhféadfadh creataí mar Scrapy réiteach níos éifeachtaí a sholáthar duit maidir le scrapáil, níl sé ag teastáil i ngach cás. Déantar glaonna AJAX den chuid is mó i gcoinne API a thabharfaidh réad JSON ar ais ar féidir leis an leabharlann Iarratas a láimhseáil go héasca.

Is é an chéad rud a chaithfidh a bheith ar eolas agat ná iarracht a dhéanamh glao AJAX a athsheinm is cosúil le API gan cháipéisíocht a úsáid. Dá bhrí sin, caithfidh tú breathnú ar an nglao go léir a dhéanann na leathanaigh. Féadfaidh tú dul chuig an suíomh, imirt leis tamall agus féachaint conas a dhéantar roinnt faisnéise a sholáthar. Tar éis duit a bheith ag imirt, tar ar ais agus tosú ag scríobadh.

Sula gcuirfimid na sonraí isteach, lig dúinn ar dtús tuiscint a fháil ar an gcaoi a n-oibríonn an leathanach. Má thugann tú cuairt ar leathanach siopaí de réir stáit, roghnaigh stát ar bith, agus tabharfaidh an leathanach faisnéis faoin siopa. Gach uair a roghnaíonn tú stát, tugann an suíomh Gréasáin siopaí nua in áit na sean-cinn. Baintear é seo amach trí úsáid a bhaint as, agus glao AJAX ar fhreastalaí ag iarraidh na faisnéise. Is é an rún atá againn anois an glao sin a ghabháil agus é a athsheinm.

Chun é sin a dhéanamh, níl le déanamh agat ach an brabhsálaí Chrome DevTools a oscailt agus dul chuig an bhfo-alt XHR. Is comhéadan é XHR a dhéanann iarratais HTTP agus HTTPS. Mar sin taispeánfar na hiarrataí AJAX anseo. Nuair a chliceálann tú an glao AJAX faoi dhó, gheobhaidh tú a lán faisnéise faoi na siopaí. Is féidir leat réamhamharc a dhéanamh ar na hiarrataí freisin.

Tabharfaidh tú faoi deara go seoltar a lán sonraí chuig an bhfreastalaí. Ná bíodh imní ort, áfach, ós rud é nach gá é go léir. Chun na sonraí a theastaíonn uait a fheiceáil, is féidir leat consól a oscailt agus iarrataí poist éagsúla a dhéanamh ar an suíomh Gréasáin. Anois go bhfuil a fhios agat conas a oibríonn an leathanach agus go bhfuil an glao AJAX laghdaithe agat, is féidir leat do scraper a scríobh.

B’fhéidir go bhfuil tú ag fiafraí, ‘cén fáth nach n-úsáideann tú brabhsálaí uathoibrithe? ' Tá an réiteach simplí; déan iarracht i gcónaí na glaonna AJAX a athsheinm sula dtosaíonn tú ar rud éigin i bhfad níos troime agus níos casta mar bhrabhsálaí uathoibrithe. Tá sé níos simplí agus níos éadroime.

png

mass gmail