AutoMap: Извлечение, анализ и представление реляционных данных из текстов
Перевод статьи - AutoMap: Extract, Analyze and Represent Relational Data from Texts
Автор(ы) - Dr. Kathleen M. Carley
Источник оригинальной статьи:
AutoMap - это инструмент для интеллектуального анализа текста, разработанный CASOS в Карнеги-Меллоне.
Ввод: один или несколько неструктурированных текстов.
Выходные данные: файлы DyNetML и CS-файлы.
AutoMap предназначен для бесперебойной работы с ORACLE.
AutoMap позволяет извлекать информацию из текстов с использованием методов сетевого анализа текста. AutoMap поддерживает извлечение нескольких типов данных из неструктурированных документов. Тип информации, которую можно извлечь, включает: данные контент-анализа (слова и частоты), данные семантической сети (сеть понятий), данные метасети (перекрестная классификация понятий в их онтологическую категорию, такую как люди, места и вещи, а также связи между этими классифицированными понятиями) и данные о настроениях (отношения, убеждения). Извлечение каждого типа данных предполагает, что был извлечен ранее указанный тип данных.
AutoMap существует как часть пакета интеллектуального анализа текста, который включает в себя ряд предварительных процессоров для очистки необработанных текстов, чтобы их можно было обработать, и набор постпроцессоров, которые используют семантический вывод для улучшения кодирования и вывода недостающей информации. Эти предварительные процессоры включают в себя такие вспомогательные инструменты, как конвертер pdf в txt, удаление непечатаемых символов и ограниченные типы дедупликации. Предварительная обработка текста конденсирует данные в концепции, которые фиксируют особенности текстов, имеющих отношение к пользователю. Правила формирования утверждений определяют, как связать извлеченные понятия в сети. Постпроцессоры включают в себя такие процедуры, которые связываются с справочниками и дополняют кодирование широтой и долготой, процедурами вывода убеждений и инструментами очистки вторичных данных. Кроме того, существует ряд вспомогательных инструментов для создания, ведения и редактирования списков удаления, тезаурусов обобщения и тезаурусов метасети.
AutoMap использует части речевого тегирования и анализа близости для выполнения компьютерного анализа сетевого текста (NTA). NTA кодирует связи между словами в тексте и создает сеть связанных слов.
AutoMap включает в себя классический контент-анализ, анализируя существование, частоты и ковариацию терминов и тем.
AutoMap был реализован в Java 1.7.
Он может работать как в интерфейсе с графическим интерфейсом, так и в режиме бэкенда.
Основными функциональными возможностями AutoMap являются:
- Извлекайте, анализируйте и сравнивайте ментальные модели отдельных людей и групп.
- Выявить структуру социальных и организационных систем по текстам.
AutoMap также предлагает различные методы предварительной обработки естественного языка:
- Распознавание именованных сущностей
- Стемминг (Портер, KStem)
- Обнаружение словосочетаний (биграмм)
- Процедуры извлечения дат, событий, частей речи
- Удаление
- Разработка и применение тезауруса
- Гибкое использование онтологий
- Пометка частей речи
Используемый алгоритм анализа карт основан на подходе Карли к кодированию текстов в виде когнитивных карт и подходе Дановского к анализу близости.
Automap также является частью Летнего института CASOS. В Летнем институте CASOS аспиранты CASOS имеют возможность продемонстрировать и обсудить свои проекты и работы.
Плакаты Летнего института CASOS 2010 года для Automap:
- "AutoMap: Извлечение полезной информации из неструктурированных текстов"
- "Извлечение отношений из текстов и вычислительная интеграция слов и сетей"
Плакат Летнего института CASOS 2008 года для Automap:
ORA Google Group
Группа ORA Google предоставляет форум для вопросов, сотрудничества и информации, связанной с инструментами CASOS. Пожалуйста, посетите эту ссылку для получения инструкций по вступлению в группу ORA Google: Как присоединиться к группе ORA Google.
Для получения информации о ORA-PRO
ORA-PRO предлагается компанией Metanomics, посетите их веб-сайт.