AutoMap: Извлечение, анализ и представление реляционных данных из текстов

Перевод статьи - AutoMap: Extract, Analyze and Represent Relational Data from Texts

Автор(ы) - Dr. Kathleen M. Carley

Источник оригинальной статьи:

http://www.casos.cs.cmu.edu/projects/automap/

AutoMap - это инструмент для интеллектуального анализа текста, разработанный CASOS в Карнеги-Меллоне.
Ввод: один или несколько неструктурированных текстов.
Выходные данные: файлы DyNetML и CS-файлы.
AutoMap предназначен для бесперебойной работы с ORACLE.

AutoMap позволяет извлекать информацию из текстов с использованием методов сетевого анализа текста. AutoMap поддерживает извлечение нескольких типов данных из неструктурированных документов. Тип информации, которую можно извлечь, включает: данные контент-анализа (слова и частоты), данные семантической сети (сеть понятий), данные метасети (перекрестная классификация понятий в их онтологическую категорию, такую как люди, места и вещи, а также связи между этими классифицированными понятиями) и данные о настроениях (отношения, убеждения). Извлечение каждого типа данных предполагает, что был извлечен ранее указанный тип данных.

AutoMap существует как часть пакета интеллектуального анализа текста, который включает в себя ряд предварительных процессоров для очистки необработанных текстов, чтобы их можно было обработать, и набор постпроцессоров, которые используют семантический вывод для улучшения кодирования и вывода недостающей информации. Эти предварительные процессоры включают в себя такие вспомогательные инструменты, как конвертер pdf в txt, удаление непечатаемых символов и ограниченные типы дедупликации. Предварительная обработка текста конденсирует данные в концепции, которые фиксируют особенности текстов, имеющих отношение к пользователю. Правила формирования утверждений определяют, как связать извлеченные понятия в сети. Постпроцессоры включают в себя такие процедуры, которые связываются с справочниками и дополняют кодирование широтой и долготой, процедурами вывода убеждений и инструментами очистки вторичных данных. Кроме того, существует ряд вспомогательных инструментов для создания, ведения и редактирования списков удаления, тезаурусов обобщения и тезаурусов метасети.

AutoMap использует части речевого тегирования и анализа близости для выполнения компьютерного анализа сетевого текста (NTA). NTA кодирует связи между словами в тексте и создает сеть связанных слов.

AutoMap включает в себя классический контент-анализ, анализируя существование, частоты и ковариацию терминов и тем.

AutoMap был реализован в Java 1.7.

Он может работать как в интерфейсе с графическим интерфейсом, так и в режиме бэкенда.

Основными функциональными возможностями AutoMap являются:

Извлекайте, анализируйте и сравнивайте ментальные модели отдельных людей и групп.
Выявить структуру социальных и организационных систем по текстам.

AutoMap также предлагает различные методы предварительной обработки естественного языка:

Распознавание именованных сущностей
Стемминг (Портер, KStem)
Обнаружение словосочетаний (биграмм)
Процедуры извлечения дат, событий, частей речи
Удаление
Разработка и применение тезауруса
Гибкое использование онтологий
Пометка частей речи

Используемый алгоритм анализа карт основан на подходе Карли к кодированию текстов в виде когнитивных карт и подходе Дановского к анализу близости.

Automap также является частью Летнего института CASOS. В Летнем институте CASOS аспиранты CASOS имеют возможность продемонстрировать и обсудить свои проекты и работы.

Плакаты Летнего института CASOS 2010 года для Automap:

Плакат Летнего института CASOS 2008 года для Automap:

"От текстов к сетям"

ORA Google Group
Группа ORA Google предоставляет форум для вопросов, сотрудничества и информации, связанной с инструментами CASOS. Пожалуйста, посетите эту ссылку для получения инструкций по вступлению в группу ORA Google: Как присоединиться к группе ORA Google.

Для получения информации о ORA-PRO
ORA-PRO предлагается компанией Metanomics, посетите их веб-сайт.