Što je Screen Scraper?

Scraper za ekran je računalni program koji prikuplja podatke temeljene na znakovima iz prikaza drugog programa. Scraperi zaslona mogu izdvojiti podatke koje traže i prezentirati ih u bogatijem formatu, kao što su grafikoni ili tablice, ili jednostavno indeksirati podatke za pohranu. Postoje mnogi drugi nazivi za strugač zaslona, ​​uključujući strugač web stranice, rudarenje sadržaja, riper web stranice, alat za izvlačenje weba, automatizirani sakupljač podataka i HTML strugač.

Scraper zaslona će pretraživati ​​kod web-mjesta i filtrirati suvišni kod koji je na mjestu kako bi krajnjem pregledniku pružio prezentaciju lijepog izgleda. Takav kod je neophodan za pregled cijele stranice u predviđenom izgledu, ali strugač jednostavno traži korisne podatke. Ti se podaci prikupljaju i prezentiraju kao jednostavna baza podataka, bez davanja originalnog HTML koda.

Dobar primjer strugača zaslona u akciji je s paucima tražilice. Ti pauci pristupaju stotinama tisuća web-mjesta, od kojih svaka sadrži brojne stranice. Podaci o ključnim riječima s ovih stranica prikupljaju se i indeksiraju, a zatim se u konačnici prezentiraju krajnjem korisniku kao rezultati tražilice.

Većina alata za struganje ekrana pretražuju HTML kodiranje web-mjesta kako bi dobili svoje podatke, ali mogu pretraživati ​​i druge skriptne jezike kao što su JavaScript ili PHP. Podaci koji se rudare tada mogu biti predstavljeni kao sam HTML, tako da im korisnik može pristupiti svojim web preglednikom, ili pohranjeni kao tekstualni podaci kojima korisnik može pristupiti izvan mreže.

Poduzeća koriste skrapere zaslona za rudarenje podataka s raznih web-mjesta povezanih s ključnim riječima kako bi generirali grafikone, grafikone, proračunske tablice i podatke za usporedbu koji će se koristiti u izvješćima i prezentacijama. Scraper zaslona štedi izvanredno vrijeme, budući da bi zaposlenik koji radi isti zadatak morao tražiti relevantne stranice, klikati na poveznice i pregledavati svaku stranicu pojedinačno kako bi pronašao i zabilježio odgovarajuće podatke koji su mu potrebni. Scraper se također može koristiti kada su informacije pohranjene na sustavu kojem se više ne može pristupiti zbog problema s kompatibilnošću s novijim hardverom ili softverom.

Strugači ekrana mogu biti i blagoslov i prokletstvo za vlasnike stranica i surfere. Iako apsolutno pružaju funkcionalnu uslugu za tvrtke, tražilice i druge, strugač ekrana se također može koristiti u manje od altruističke svrhe. Na primjer, tvrtke ili pojedinci koji koriste neželjenu poštu kao metodu oglašavanja mogu koristiti skraper zaslona za rudarenje e-mail adresa s web-mjesta.
Iako skraper za ekran može biti zgodan alat, postoji određena rasprava među web zajednicom oko zakonitosti i etike pri njihovoj upotrebi. Problemi s autorskim pravima postaju zamućeni kada alat za struganje zaslona izvuče nečiji naporan rad i prikaže ga u drugom formatu za drugu web-stranicu, a one web-lokacije koje ovise o oglašavanju za generiranje prihoda imaju problema kada se njihovi oglasi odbacuju pomoću alata za struganje zaslona. Kao rezultat toga, neki vlasnici web-mjesta počeli su implementirati alate koji će spriječiti brisanje njihovih stranica.