Što je ekstrakcija informacija?

Ponekad poznat kao pronalaženje informacija, ekstrakcija informacija (IE) je proces koji se koristi s računalnim sustavima kako bi se omogućilo izdvajanje relevantnih podataka iz većih tijela podataka, koristeći neki skup unaprijed definiranih kriterija. Ideja koja stoji iza ekstrakcije informacija je omogućiti lako prepoznavanje i asimilaciju podataka koji su relevantni za određenu aktivnost, bez potrebe za ručnim prolaskom kroz velike količine informacija kako bi se pronašli točni potrebni podaci. Proces je sličan idejama rudarenja koncepta ili web scrapinga, po tome što svi ovi pristupi nastoje prikupiti korisne informacije iz šireg skupa dostupnih podataka.

Opći pristup izdvajanju informacija zahtijeva korištenje programiranja koje je sposobno skenirati izvore informacija koji se smatraju strojno čitljivim. To može uključivati ​​dokumente u tiskanom obliku koji su skenirani u neku vrstu elektroničkih datoteka, dokumente pripremljene kao proračunske tablice ili dokumente za obradu teksta, ili čak podatke koji se nalaze u čitljivim poljima u bazi podataka. Obično se postavljaju parametri koji omogućavaju softverskom programu da dobije pristup tim izvorima podataka i brzo ih skenira koristeći specifične kriterije kako bi odredio prioritet i izvukao određene vrste informacija iz dostupnog skupa. Ovaj se proces obično razlikuje od jednostavnog procesa pretraživanja, jer metoda zahtijeva da se ne podudaraju određene riječi ili fraze same po sebi, već se umjesto toga koristi proces koji se naziva obrada prirodnog jezika, koji pomaže ne samo u evaluaciji stvarnih riječi, već i konteksta i značenje koje implicira taj kontekst.

Složenost koja se odnosi na ekstrakciju informacija čini korištenje ovog pristupa pomalo teškom za upravljanje na globalnoj razini, iako postoje IE alati koji rade vrlo dobro samo s ograničenom količinom podataka, kao što su izvori podataka povezani s elektroničkim datotekama smještenim na poslužitelj korporacije, ili čak skup izvora koji uključuje ograničen broj feedova vijesti. Ovim pristupom moguće je identificirati neku vrstu događaja, eventualno čak i ograničiti povrate na uključivanje određenog broja sudionika u događaj, a podatke rasporediti prema datumu.

Kao i kod mnogih oblika tehnologije, alati koji se koriste za vađenje informacija neprestano se usavršavaju. Od početka 21. stoljeća značajno se povećala mogućnost postavljanja parametara i korištenja sve većeg broja elektroničkih podataka u sklopu potrage za relevantnim informacijama. To uključuje mogućnost rada s velikim količinama nestrukturiranih podataka i korištenje tih parametara za dovođenje nekog reda ili strukture u te podatke, što ih čini još korisnijim za buduća pretraživanja.