ACREA představuje novou proceduru pro extrakci pojmenovaných entit v modulu Acrea Text Analytics

ACREA představuje novou proceduru pro extrakci pojmenovaných entit v modulu Acrea Text Analytics)

Software IBM SPSS Statistics nativně nenabízí procedury určené pro textovou analýzu. Proto společnost ACREA připravila pro své uživatele specializovaný modul Acrea Text Analytics, který tuto funkcionalitu dodává formou samostatných procedur určených pro konkrétní specifickou činnost. Celkově se jedná o tři procedury. ATA Sentiment, ATA Labels a ATA Entities. Aktuální novinkou je nová procedura ATA Entities a přepracovaná procedura ATA Labels, ve které byla zrušena volba domény dokumentů a typu hesla.

Procedura ATA Entities se využívá k extrakci pojmenovaných entit z textového dokumentu. Například při extrakci entit z příspěvků ze sociálních sítí jako je Facebook, Instagram, X (Twitter), různých diskusních fór, článků, otevřených otázek v dotaznících a podobně. Pojmenovanou entitou může být osoba, organizace nebo místo. Typy entit se zaznamenávají do datové matice jako nový atribut s hodnotami person, organization, location. Před samotnou extrakcí entit lze realizovat automatické rozpoznání jazyka a doplnění diakritiky, pokud chybí. Primárně je procedura určená k analýze českého a slovenského textu, umožňuje však analyzovat i texty z jiných jazyků, například angličtiny či němčiny.

Ke každé entitě je možné připojit sentiment spojený s entitou a případně jej kvantifikovat pomocí skóre. Kategorie sentimentu jsou very negativenegativeneutralpositivevery positiveambivalent.  Celkové skóre nabývá hodnot od -1 do +1. Kladné hodnoty indikují pozitivní sentiment, záporné negativní. Celkové skóre je součtem pozitivního a negativního skóre.

Procedura ATA Entities restrukturalizuje zpracovávanou datovou matici na dlouhý transakční formát, kde řádky reprezentují nalezené pojmenované entity a jsou identifikovány identifikátorem původního dokumentu.