Автоматическая индексация - Automatic indexing

Автоматическая индексация это компьютеризированный процесс сканирования больших объемов документы против контролируемый словарный запас, таксономия, тезаурус или онтология и использование этих контролируемых условий для быстро и эффективно индексировать большие электронный документ депозитарии. Эти ключевые слова или язык применяются путем обучения системы правилам, определяющим, каким словам соответствовать. К этому есть дополнительные части, такие как синтаксис, использование, близость и другие алгоритмы, основанные на системе и то, что требуется для индексации. Это учитывается с помощью логических операторов для сбора и извлечения информации об индексировании из текста.^[1] По количеству документов экспоненциально увеличивается с распространением Интернет, автоматическое индексирование станет важным для поддержания способности находить релевантную информацию в море нерелевантных Информация. Системы естественного языка используются для обучения системы, основанной на семи различных методах, чтобы помочь с этим морем нерелевантной информации. Это морфологический, лексический, синтаксический, числовой, фразеологический, семантический и прагматический методы. Каждый из них выглядит и разные части скорости и условий для создания домена для конкретной информации, которая покрывается для индексации. Это используется в автоматизированном процессе индексации.^[1]

В автоматизированном процессе могут возникать проблемы, которые в основном вызваны двумя факторами: 1) сложностью языка; и 2) недостаток интуитивности и сложность экстраполяции концепций из утверждений со стороны вычислительной технологии.^[2] Это в первую очередь лингвистические проблемы, а конкретные проблемы связаны с семантическими и синтаксическими аспектами языка.^[2] Эти проблемы возникают из-за определенных ключевых слов. С помощью этих ключевых слов вы можете определить точность системы на основе совпадений, промахов и шума. Эти термины относятся к точным совпадениям, ключевым словам, которые компьютерная система пропустила, а не человек, и ключевым словам, выбранным компьютером и отсутствующим у человека. Статистика точности, основанная на этом, должна быть выше 85% для Hits из 100% для индексации человека. Таким образом, промахи и шум составляют 15% или меньше. Эта шкала обеспечивает основу для того, что считается хорошей системой автоматической индексации, и показывает, где возникают проблемы.^[1]

История

Некоторые ученые отмечают, что тема автоматического индексирования привлекала внимание еще в 1950-х годах, особенно в связи с потребностью в более быстром и полном доступе к научной и технической литературе.^[3] Это внимание к индексации началось с обработки текста между 1957 и 1959 годами Х. Lunh через серию опубликованных статей. Лун предположил, что компьютер может обрабатывать сопоставление ключевых слов, сортировку и анализ контента. Это было началом автоматической индексации и формулы извлечения ключевых слов из текста на основе частотного анализа. Позже было определено, что одной частоты недостаточно для хороших дескрипторов, однако это положило начало пути к тому, где мы сейчас находимся с Автоматическим индексированием.^[4] Это было подчеркнуто информационным взрывом, предсказанным в 1960-е гг.^[5] и возник благодаря появлению информационных технологий и всемирной паутины. Прогноз был подготовлен Мурсом, где была создана схема с ожидаемой ролью вычислений для обработки текста и поиска информации. В этом прогнозе говорилось, что машины будут использоваться для хранения документов в больших коллекциях и что мы будем использовать эти машины для выполнения поиска. Мурс также предсказал онлайновый аспект и среду поиска для индексирования баз данных. Это привело Мурса к созданию машины индукционного вывода, которая произвела революцию в индексировании.^[4] Это явление потребовало разработки системы индексации, способной справиться с задачей хранения и организации огромного количества данных и облегчить доступ к информации.^[6]^[7] Новое электронное оборудование еще больше усовершенствовало автоматизированное индексирование, поскольку оно преодолело барьер, налагаемый старыми бумажными архивами, позволяя кодировать информацию на молекулярном уровне.^[5] С этим новым электронным оборудованием были разработаны инструменты для помощи пользователям. Они использовались для управления файлами и были организованы в различные категории, такие как PDM Suite, такие как Outlook или Lotus Note, и инструменты Mind Mapping, такие как MindManager и Freemind. Это позволяет пользователям сосредоточиться на хранении и построении когнитивной модели.^[8] Автоматическое индексирование также частично связано с появлением поля под названием компьютерная лингвистика, который руководил исследованиями, в результате которых были разработаны такие методы, как применение компьютерного анализа к структуре и значению языков.^[3]^[9] Автоматическое индексирование дополнительно стимулируется исследованиями и разработками в области искусственный интеллект и самоорганизующаяся система также называется думающей машиной.^[3]

Смотрите также

Индексирование тем - процесс, который автоматизирован за счет автоматической индексации
Тег (метаданные)
Веб-индексирование

использованная литература

^ ^а ^б ^c Хлава, Марджори М. (31 января 2005 г.). «Автоматическое индексирование: вопрос степени». Бюллетень Американского общества информационных наук и технологий. 29 (1): 12–15. Дои:10.1002 / bult.261.
^ ^а ^б Кливленд, Ана; Кливленд, Дональд (2013). Введение в индексирование и реферирование: четвертое издание. Санта-Барбара, Калифорния: ABC-CLIO. п. 289. ISBN 9781598849769.
^ ^а ^б ^c Риаз, Мухаммад (1989). Расширенные практики индексирования и абстрагирования. Дели: Атлантические издатели и дистрибьюторы. п. 263.
^ ^а ^б Историческая справка: последние тридцать лет информационного поиска Salton, Gerard Journal Американского общества информационных наук (1986–1998); Sep 1987; 38, 5; ProQuest стр. 375
^ ^а ^б Торрес-Морено, Хуан-Мануэль (2014). Автоматическое суммирование текста. Хобокен, Нью-Джерси: Джон Уайли и сыновья. стр. xii. ISBN 9781848216686.
^ Капетаниос, Эпаминонд; Сугумаран, Виджаян; Естественный язык и информационные системы: 13-я Международная конференция по применению естественного языка в информационных системах, NLDB 2008, Лондон, Великобритания, 24-27 июня 2008 г., Proceedings, Myra (2008). Естественный язык и информационные системы: 13-я Международная конференция по приложениям естественного языка к информационным системам, NLDB 2008, Лондон, Великобритания, 24-27 июня 2008 г., Материалы. Берлин: Springer Science & Business Media. п. 350. ISBN 978-3-540-69857-9.CS1 maint: несколько имен: список авторов (ссылка на сайт)
^ Basch, Reva (1996). Секреты искателей сверхсети: размышления, откровения и с трудом добытые мудрости 35 ведущих интернет-исследователей мира. Медфорд, Нью-Джерси: Information Today, Inc., стр.271. ISBN 0910965226.
^ Jayaweera, Y.D .; Джохар, Md Gapar Md; Перера, С.Н. «Открытые журнальные системы». Цитировать журнал требует | журнал = (Помогите)
^ Армстронг, Сьюзан (1994). Использование больших корпусов. Кембридж, Массачусетс: MIT Press. п. 291. ISBN 0262510820.

Эта статья о вычислительной технике заглушка. Вы можете помочь Википедии расширяя это.

[:3-1] а ^б ^c Хлава, Марджори М. (31 января 2005 г.). «Автоматическое индексирование: вопрос степени». Бюллетень Американского общества информационных наук и технологий. 29 (1): 12–15. Дои:10.1002 / bult.261.

[:0-2] а ^б Кливленд, Ана; Кливленд, Дональд (2013). Введение в индексирование и реферирование: четвертое издание. Санта-Барбара, Калифорния: ABC-CLIO. п. 289. ISBN 9781598849769.

[:1-3] а ^б ^c Риаз, Мухаммад (1989). Расширенные практики индексирования и абстрагирования. Дели: Атлантические издатели и дистрибьюторы. п. 263.

[:5-4] а ^б Историческая справка: последние тридцать лет информационного поиска Salton, Gerard Journal Американского общества информационных наук (1986–1998); Sep 1987; 38, 5; ProQuest стр. 375

[:2-5] а ^б Торрес-Морено, Хуан-Мануэль (2014). Автоматическое суммирование текста. Хобокен, Нью-Джерси: Джон Уайли и сыновья. стр. xii. ISBN 9781848216686.

[6] Капетаниос, Эпаминонд; Сугумаран, Виджаян; Естественный язык и информационные системы: 13-я Международная конференция по применению естественного языка в информационных системах, NLDB 2008, Лондон, Великобритания, 24-27 июня 2008 г., Proceedings, Myra (2008). Естественный язык и информационные системы: 13-я Международная конференция по приложениям естественного языка к информационным системам, NLDB 2008, Лондон, Великобритания, 24-27 июня 2008 г., Материалы. Берлин: Springer Science & Business Media. п. 350. ISBN 978-3-540-69857-9.CS1 maint: несколько имен: список авторов (ссылка на сайт)

[7] Basch, Reva (1996). Секреты искателей сверхсети: размышления, откровения и с трудом добытые мудрости 35 ведущих интернет-исследователей мира. Медфорд, Нью-Джерси: Information Today, Inc., стр.271. ISBN 0910965226.

[8] Jayaweera, Y.D .; Джохар, Md Gapar Md; Перера, С.Н. «Открытые журнальные системы». Цитировать журнал требует | журнал = (Помогите)

[9] Армстронг, Сьюзан (1994). Использование больших корпусов. Кембридж, Массачусетс: MIT Press. п. 291. ISBN 0262510820.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]