Što je strukturno rudarenje?

Strukturno rudarenje je vrsta rudarenja podataka u kojoj se skenira polustrukturirani izvor podataka, a elementi njegove strukture se otkrivaju i ističu. Polustrukturirani izvor podataka je onaj koji ne koristi tradicionalnu strukturu baze podataka tablica, ali ima semantički element koji odvaja informacije putem oznaka i markera. Strukturno rudarenje može se koristiti za rudarenje baza podataka, web stranica i mnogih drugih oblika računalnih informacija kako bi se otkrili elementi strukture. Pomaže korisnicima da razumiju kako dijelovi međusobno djeluju ili kako pronaći informacije pod određenim oznakama. Ovo rudarenje također se može koristiti za predviđanje što je stavka, na temelju pravila koja je napisao korisnik.

Postoji mnogo različitih vrsta rudarenja podataka, a većina se bavi rudarenjem tradicionalno strukturiranog izvora. To uključuje svaki izvor koji koristi tablice i čvorove tipične za većinu baza podataka. U strukturnom rudarenju koriste se samo polustrukturirani podaci. U ovom slučaju, podaci su s web-mjesta ili jednostavnih baza podataka koje imaju strukturu, ali ne i onu koja je u skladu s tradicionalnim pravilima baze podataka. Podacima su potrebne oznake ili markeri koji odvajaju svaku stavku da bi se ispravno rudarili.

Čitanjem polustrukturiranog skupa podataka, strukturno rudarenje može otkriti kako struktura međudjeluje. Na primjer, svaka web stranica ima navigacijski model, a taj model određuje kako stranice međusobno djeluju. Miniranjem strukture korisnik može otkriti kako ova navigacija funkcionira, što može pomoći u stvaranju slične sheme navigacije.

Strukturno rudarenje se također može koristiti za pronalaženje stavki pisanjem pravila u program rudarenja. Na primjer, ako postoji skup podataka knjige, korisnik može napisati pravilo da se sve knjige bez indeksa vraćaju kao fikcija, a one s indeksom kao nefikcija. Većini beletrističkih knjiga nedostaje indeks, pa će ovo pravilo s velikom točnošću predvidjeti koji su podaci. To pomaže korisnicima kada gledaju polustrukturirani skup koji ima organizacijsku metodu, ali ne onu koja odgovara onome što korisnik traži.

Nakon što shvati strukturu polustrukturirane jedinice, korisnik će je obično usporediti s drugom polustrukturiranom jedinicom. Ako korisnik ima poslovnu web stranicu, on ili ona može dobiti drugu poslovnu web stranicu za navigaciju i veze te vidjeti koliko je njegova ili njezina web stranica slična. Uspoređujući prikupljene informacije, korisnik može pronaći načine za povećanje učinkovitosti strukture.