Što je Text Mining?

Text mining je proces korištenja računalne tehnologije za probiranje tekstualnih dokumenata u svrhu istraživanja i analize. Često se smatra vrlo sličnim procesu poznatom kao rudarenje podataka, ali se oslanja na posebno programiranje za traženje nekategoriziranog teksta i pronalaženje značenja ili uzoraka umjesto analize unaprijed kategoriziranih informacija baze podataka. Iskopavanje teksta ima mnogo primjena u područjima kao što su znanost, marketing i organizacija podataka.

Složenost organiziranja riječi u jezik previše je ekstremna da bi se računala mogla nositi, ali znanstvenici su naporno radili na poboljšanju ove vrste programiranja. Razvijene su mnoge metode koje omogućuju znanstvenicima da identificiraju fraze i otkriju činjenice o tekstu. To općenito nije isto što i potpuno dešifriranje značenja, ali omogućuje prečace kojima se postižu mnogi od istih ciljeva. Iskopavanje teksta koristi prednosti nekih od ovih tehnika, a kako se ova tehnologija poboljšava, općenito se očekuje da će se i rudarenje teksta poboljšati.

Stručnjaci koriste analizu tekstualnih informacija prvenstveno za istraživanje pisanih dokumenata. Velike količine pisanih podataka može biti teško analizirati zbog ogromnog potrebnog vremena. Računala mogu puno brže proći kroz ovaj tekst, ali ga ne razumiju. Tehnike rudarenja teksta omogućuju računalima da pronađu korisne trendove u tekstu, prezentirajući podatke na način koji može otkriti nove činjenice ili omogućiti stručnjacima da dođu do otkrića.

Primjer upotrebe ove tehnologije bilo bi istraživanje tržišta. Stručnjaci bi mogli analizirati rezultate pretraživanja na nazivu proizvoda i tražiti da program traži izraze koji izražavaju osjećaj korisnika. Na taj način mogu na vrlo detaljan način saznati kako se ljudi doista osjećaju o njihovom proizvodu. Mogli su i jednostavno potražiti svoj proizvod i vidjeti koje fraze se najčešće pojavljuju, a to bi im moglo pomoći da razviju nove ideje o tome kako zadovoljiti svoje kupce.

Druga upotreba za rudarenje teksta je analiza znanstvenih radova o sličnim temama u potrazi za novim trendovima ili sporazumima. To je omogućilo nekim znanstvenicima da naprave prediktivne pretpostavke koje su se pokazale korisnima u poljima poput analize proteina. Neki stručnjaci misle da ove vrste aplikacija mogu na kraju pružiti neočekivana otkrića.

Proces koji se naziva rudarenje podataka zapravo je prilično sličan rudarenju teksta, ali je općenito manje složen jer se oslanja na tekst koji je već formatiran u kategorije. Na primjer, softver bi mogao proći kroz sve informacije za kandidate za posao u bazi podataka, tražeći trendove. Rupanje teksta je teže za računala jer je čisti tekst teže analizirati nego podatke s kategorijama.