Автоматическая индексация - Automatic indexing

Автоматическая индексация это компьютеризированный процесс сканирования больших объемов документы против контролируемый словарный запас, таксономия, тезаурус или онтология и использование этих контролируемых условий для быстро и эффективно индексировать большие электронный документ депозитарии. Эти ключевые слова или язык применяются путем обучения системы правилам, определяющим, каким словам соответствовать. К этому есть дополнительные части, такие как синтаксис, использование, близость и другие алгоритмы, основанные на системе и то, что требуется для индексации. Это учитывается с помощью логических операторов для сбора и извлечения информации об индексировании из текста.[1] По количеству документов экспоненциально увеличивается с распространением Интернет, автоматическое индексирование станет важным для поддержания способности находить релевантную информацию в море нерелевантных Информация. Системы естественного языка используются для обучения системы, основанной на семи различных методах, чтобы помочь с этим морем нерелевантной информации. Это морфологический, лексический, синтаксический, числовой, фразеологический, семантический и прагматический методы. Каждый из них выглядит и разные части скорости и условий для создания домена для конкретной информации, которая покрывается для индексации. Это используется в автоматизированном процессе индексации.[1]

В автоматизированном процессе могут возникать проблемы, которые в основном вызваны двумя факторами: 1) сложностью языка; и 2) недостаток интуитивности и сложность экстраполяции концепций из утверждений со стороны вычислительной технологии.[2] Это в первую очередь лингвистические проблемы, а конкретные проблемы связаны с семантическими и синтаксическими аспектами языка.[2] Эти проблемы возникают из-за определенных ключевых слов. С помощью этих ключевых слов вы можете определить точность системы на основе совпадений, промахов и шума. Эти термины относятся к точным совпадениям, ключевым словам, которые компьютерная система пропустила, а не человек, и ключевым словам, выбранным компьютером и отсутствующим у человека. Статистика точности, основанная на этом, должна быть выше 85% для Hits из 100% для индексации человека. Таким образом, промахи и шум составляют 15% или меньше. Эта шкала обеспечивает основу для того, что считается хорошей системой автоматической индексации, и показывает, где возникают проблемы.[1]

История

Некоторые ученые отмечают, что тема автоматического индексирования привлекала внимание еще в 1950-х годах, особенно в связи с потребностью в более быстром и полном доступе к научной и технической литературе.[3] Это внимание к индексации началось с обработки текста между 1957 и 1959 годами Х. Lunh через серию опубликованных статей. Лун предположил, что компьютер может обрабатывать сопоставление ключевых слов, сортировку и анализ контента. Это было началом автоматической индексации и формулы извлечения ключевых слов из текста на основе частотного анализа. Позже было определено, что одной частоты недостаточно для хороших дескрипторов, однако это положило начало пути к тому, где мы сейчас находимся с Автоматическим индексированием.[4] Это было подчеркнуто информационным взрывом, предсказанным в 1960-е гг.[5] и возник благодаря появлению информационных технологий и всемирной паутины. Прогноз был подготовлен Мурсом, где была создана схема с ожидаемой ролью вычислений для обработки текста и поиска информации. В этом прогнозе говорилось, что машины будут использоваться для хранения документов в больших коллекциях и что мы будем использовать эти машины для выполнения поиска. Мурс также предсказал онлайновый аспект и среду поиска для индексирования баз данных. Это привело Мурса к созданию машины индукционного вывода, которая произвела революцию в индексировании.[4] Это явление потребовало разработки системы индексации, способной справиться с задачей хранения и организации огромного количества данных и облегчить доступ к информации.[6][7] Новое электронное оборудование еще больше усовершенствовало автоматизированное индексирование, поскольку оно преодолело барьер, налагаемый старыми бумажными архивами, позволяя кодировать информацию на молекулярном уровне.[5] С этим новым электронным оборудованием были разработаны инструменты для помощи пользователям. Они использовались для управления файлами и были организованы в различные категории, такие как PDM Suite, такие как Outlook или Lotus Note, и инструменты Mind Mapping, такие как MindManager и Freemind. Это позволяет пользователям сосредоточиться на хранении и построении когнитивной модели.[8] Автоматическое индексирование также частично связано с появлением поля под названием компьютерная лингвистика, который руководил исследованиями, в результате которых были разработаны такие методы, как применение компьютерного анализа к структуре и значению языков.[3][9] Автоматическое индексирование дополнительно стимулируется исследованиями и разработками в области искусственный интеллект и самоорганизующаяся система также называется думающей машиной.[3]

Смотрите также

использованная литература

  1. ^ а б c Хлава, Марджори М. (31 января 2005 г.). «Автоматическое индексирование: вопрос степени». Бюллетень Американского общества информационных наук и технологий. 29 (1): 12–15. Дои:10.1002 / bult.261.
  2. ^ а б Кливленд, Ана; Кливленд, Дональд (2013). Введение в индексирование и реферирование: четвертое издание. Санта-Барбара, Калифорния: ABC-CLIO. п. 289. ISBN  9781598849769.
  3. ^ а б c Риаз, Мухаммад (1989). Расширенные практики индексирования и абстрагирования. Дели: Атлантические издатели и дистрибьюторы. п. 263.
  4. ^ а б Историческая справка: последние тридцать лет информационного поиска Salton, Gerard Journal Американского общества информационных наук (1986–1998); Sep 1987; 38, 5; ProQuest стр. 375
  5. ^ а б Торрес-Морено, Хуан-Мануэль (2014). Автоматическое суммирование текста. Хобокен, Нью-Джерси: Джон Уайли и сыновья. стр. xii. ISBN  9781848216686.
  6. ^ Капетаниос, Эпаминонд; Сугумаран, Виджаян; Естественный язык и информационные системы: 13-я Международная конференция по применению естественного языка в информационных системах, NLDB 2008, Лондон, Великобритания, 24-27 июня 2008 г., Proceedings, Myra (2008). Естественный язык и информационные системы: 13-я Международная конференция по приложениям естественного языка к информационным системам, NLDB 2008, Лондон, Великобритания, 24-27 июня 2008 г., Материалы. Берлин: Springer Science & Business Media. п. 350. ISBN  978-3-540-69857-9.CS1 maint: несколько имен: список авторов (ссылка на сайт)
  7. ^ Basch, Reva (1996). Секреты искателей сверхсети: размышления, откровения и с трудом добытые мудрости 35 ведущих интернет-исследователей мира. Медфорд, Нью-Джерси: Information Today, Inc., стр.271. ISBN  0910965226.
  8. ^ Jayaweera, Y.D .; Джохар, Md Gapar Md; Перера, С.Н. «Открытые журнальные системы». Цитировать журнал требует | журнал = (Помогите)
  9. ^ Армстронг, Сьюзан (1994). Использование больших корпусов. Кембридж, Массачусетс: MIT Press. п. 291. ISBN  0262510820.