Scraper Tutorial Web Chrome Minn Espert Semalt

Jekk qed tuża Google Chrome, hemm estensjoni għall-browser tiegħek li tista 'tgħin biex tinbarax il-paġni tal-web. Huwa magħruf bħala '' Scrapper, '' u jista 'jintuża mingħajr problemi. Scrapper se jgħin fit-tqaxxir ta 'kontenut ta' websajt u t-tlugħ tar-riżultati fid-dokumenti tal-Google.

Kif tinbarax websajt bl-użu ta 'estensjoni Scraper?

1. Agħżel Chrome Web Store fil-Google Chrome;

2. F'estensjonijiet, wettaq tfittxija għal '' Ruttam '';

3. L-ewwel riżultat ta 'tfittxija huwa l-estensjoni magħrufa bħala' 'Scrapper' ';

4. Agħżel il-buttuna elenkata bħala '' Żid ma 'Chrome' ';

5. Mur lura għall-elenkar tal-membri parlamentari tar-Renju Unit;

6. Ikklikkja l- link li ġejja ;

7. Issa tfittex MP wieħed u żgura li d-dħul ikun immarkat;

8. Ikklikkja-lemin biex tagħżel l-għażla "Scrape Similar ...";

9. Il-console għall-iskrapp se titfaċċa f'tieqa oħra;

10. Ara l-kontenut mibrux fil-console tal-barraxa;

11. Sabiex jiġi żgurat li l-kontenut jiġi ffrankat bħala Spreadsheet Google, agħżel "Save to Google Docs ..."

Brix estiż

Qabel ma teħel ma 'din ir-riċetta, huwa utli li tifhem il-bażi ta' l-HTML. Pereżempju, tista 'taqra introduzzjoni qasira għall-HTML permezz ta' din il- link

Ejja nimmaġinaw li ninsabu interessati fil-films kollha li fihom starred Asia Argento, attriċi famuża Taljana.

1. Hemm arkivju dettaljat ħafna ta 'atturi fl-IMDB. Is-sit tal-Asja Argento huwa: http://www.imdb.com/name/nm0000782/;

2. Hawnhekk, tista 'tara r-rwoli kollha li kellha l-attriċi. Ejja nibdew inħassru l-informazzjoni li aħna nteressati;

3. Ipprova jinbarax bil-mod kif ġie deskritt hawn fuq;

4. Tara li l-lista hija daqsxejn distorta. Dan minħabba l-fatt li l-lista hawn tista 'tkun strutturata b'mod differenti;

5. Ras għall-console tal-barraxa. Fuq ix-xellug, tara l-kaxxa żgħira li tgħid XPath;

6. Xpath huwa tip ta 'lingwa ta' mistoqsija li taħdem għal XML u HTML;

7. XPath jista 'jgħin biex issib il-partijiet tal-paġna li qed tinteressa. Il-ħaġa li jmiss hi li ssib element xieraq u tikteb il-XPath għaliha;

8. Issa ejja nirranġaw it-tabella tagħna;

9. Int tara li l-XPath eżistenti tagħna, li għandu d-dejta kollha meħtieġa huwa "// div [3] / div [3] / div [2] / div";

10. XPath jinforma lis-Sistema biex tara d-dokument HTML u tagħżel it-tielet element, imbagħad it-tieni element u allura kollha kemm huma;

11. Iżda, nixtiequ li d-dejta tagħna tkun separata;

12. Uża t-taqsima tal-kolonni fil-console għall-iskrepp biex dan isir;

13. Ejja l-ewwel insibu t-titlu tagħna – Uża l-Element Spezzjonat biex tara t-titlu;

14. Iċċekkja t-titolu fi tikketta. Żid it-tikketta mal-XPath;

15. L-espressjoni tidher li taħdem sewwa, u għalhekk tagħmel l-ewwel kolonna tagħna;

16. Fit-taqsima "Kolonni", ibdel l-isem tal-ewwel kolonna għal "titolu";

17. Żid il-XPath miegħu;

18. Fit-taqsima tal-kolonna, l-XPaths huma relattivi u jfisser li "./b" se jagħżel l-element <b>

19. Fil-XPath għall-kolonna tat-titlu, żid "./b" u agħżel "jinbarax";

20. Issa ejja nkompli għaddej għal sena. Snin jistgħu jinstabu fi medda waħda;

21. Oħloq kolonna ġdida billi tagħżel iż-żgħir flimkien ma 'ħdejn il-kolonna għat-titlu tiegħek;

22. Meta tuża XPath "./span" toħloq kolonna għal "sena";

23. Ikklikkja barra u tara kif ġiet miżjuda s-sena;

24. Magħmul!

mass gmail