Vadnica za spletni brskalnik za Chrome od Semalt Expert

Če uporabljate Google Chrome, je za vaš brskalnik razširitev, ki lahko pomaga pri strganju spletnih strani. Znan je kot "Scrapper", zato ga je mogoče brez težav uporabljati. Program Scrapper bo pomagal pri zapisovanju vsebine spletnega mesta in pri nalaganju rezultatov v Google dokumente.

Kako odstraniti spletno mesto z razširitvijo Scraper?

1. V brskalniku Google Chrome izberite spletno trgovino Chrome;

2. v razširitvah poiščite iskalnik '' Scrapper '';

3. Prvi rezultat iskanja je razširitev, znana kot "Scrapper";

4. Izberite gumb, naveden kot "" Dodaj v Chrome ";

5. Vrnite se na seznam poslancev v Veliki Britaniji;

6. Kliknite naslednjo povezavo ;

7. Zdaj poiščite enega MP in se prepričajte, da je vnos označen;

8. Z desno miškino tipko izberite možnost "Scrape podobno ...";

9. Konzola za strgalo se bo pojavila v drugem oknu;

10. ogled končne vsebine na konzoli strgala;

11. Če želite zagotoviti, da je vsebina shranjena kot Google Spreadsheet, izberite "Shrani v Google Dokumente ..."

Dolgotrajno strganje

Preden se držite tega recepta, je koristno razumeti osnove HTML. Na primer, prek te povezave lahko preberete kratek uvod v HTML

Predstavljajmo si, da nas zanimajo vsi filmi, v katerih je igrala slavna italijanska igralka Asia Argento.

1. V IMDB je zelo podroben arhiv akterjev. Spletna stran Asia Argento je: http://www.imdb.com/name/nm0000782/;

2. Tu si lahko ogledate vse vloge, ki jih igra igralka. Začnimo zapisovati informacije, ki nas zanimajo;

3. Poskusite ga strgati tako, kot je bilo opisano zgoraj;

4. Videli boste, da je seznam nekoliko popačen. To je posledica dejstva, da je seznam tukaj lahko strukturiran drugače;

5. Pojdite do konzole strgala. Zgoraj levo boste videli majhno polje, ki piše XPath;

6. Xpath je neke vrste jezik poizvedb, ki deluje za XML in HTML;

7. XPath vam lahko pomaga najti dele strani, ki vas zanimajo. Naslednja stvar je najti ustrezen element in zanj napisati XPath;

8. Zdaj si uredimo svojo mizo;

9. Videli boste, da je naš obstoječi XPath, ki vsebuje vse potrebne podatke, "// div [3] / div [3] / div [2] / div";

10. XPath sporoči sistemu, da si ogleda HTML dokument in izbere tretji element, nato drugi element in nato vse;

11. Vendar bi radi ločili svoje podatke;

12. Uporabite odsek stolpcev v konzoli za strgalo;

13. Najprej najdemo svoj naslov ІІњњ to to to to Inspe Inspe Inspe to Inspe Inspe Inspe Inspe Inspe Inspe Inspe Inspe Inspe Inspe Inspe Inspe Inspe Inspe Inspe Inspe Inspe to Inspe to to to to to to to to to to to to to to to to to to to to to to to to to to to to to to to to to to to to to to

14. Preverite naslov znotraj oznake. Dodajte oznako v XPath;

15. Zdi se, da izraz deluje pravilno, zato naj bo to prvi stolpec;

16. v razdelku "Stolpci" ime prvega stolpca nadomestite z "naslov";

17. Dodajte mu XPath;

18. V razdelku stolpcev so XPaths relativni, kar pomeni, da bo "./b" izbral element <b>

19. V stolpcu XPath za naslovni stolpec dodajte "./b" in izberite "strganje";

20. Zdaj nadaljujmo leto dni. Leta lahko najdemo znotraj enega razpona;

21. ustvarite nov stolpec tako, da za svoj naslov izberete majhen plus;

22. Z uporabo XPath "./span" ustvarite stolpec za "leto";

23. Kliknite strganje in si oglejte, kako je bilo dodano leto;

24. Končano!

mass gmail