Эта статья поднимает множество проблем. Пожалуйста помоги Улучши это или обсудите эти вопросы на страница обсуждения. (Узнайте, как и когда удалить эти сообщения-шаблоны)
Эта статья может потребоваться переписан соответствовать требованиям Википедии стандарты качества, поскольку он содержит только словарное определение термина и умозрительное утверждение, что когда-нибудь в будущем это понятие станет важным.Вы можете помочь. В страница обсуждения может содержать предложения.(Сентябрь 2010 г.)
эта статья нужны дополнительные цитаты для проверка. Пожалуйста помоги улучшить эту статью от добавление цитат в надежные источники. Материал, не полученный от источника, может быть оспорен и удален. Найдите источники:«Автоматическая индексация» – Новости·газеты·книги·ученый·JSTOR(Август 2010 г.) (Узнайте, как и когда удалить этот шаблон сообщения)
эта статья требует внимания эксперта в области вычислений. Пожалуйста, добавьте причина или говорить в этот шаблон, чтобы объяснить проблему со статьей. WikiProject Computing может помочь нанять эксперта.(Декабрь 2017 г.)
эта статья нужны дополнительные цитаты для проверка. Пожалуйста помоги улучшить эту статью от добавление цитат в надежные источники. Материал, не полученный от источника, может быть оспорен и удален. Найдите источники:«Автоматическая индексация» – Новости·газеты·книги·ученый·JSTOR(Декабрь 2017 г.) (Узнайте, как и когда удалить этот шаблон сообщения)
(Узнайте, как и когда удалить этот шаблон сообщения)
Автоматическая индексация это компьютеризированный процесс сканирования больших объемов документы против контролируемый словарный запас, таксономия, тезаурус или онтология и использование этих контролируемых условий для быстро и эффективно индексировать большие электронный документ депозитарии. Эти ключевые слова или язык применяются путем обучения системы правилам, определяющим, каким словам соответствовать. К этому есть дополнительные части, такие как синтаксис, использование, близость и другие алгоритмы, основанные на системе и то, что требуется для индексации. Это учитывается с помощью логических операторов для сбора и извлечения информации об индексировании из текста.[1] По количеству документов экспоненциально увеличивается с распространением Интернет, автоматическое индексирование станет важным для поддержания способности находить релевантную информацию в море нерелевантных Информация. Системы естественного языка используются для обучения системы, основанной на семи различных методах, чтобы помочь с этим морем нерелевантной информации. Это морфологический, лексический, синтаксический, числовой, фразеологический, семантический и прагматический методы. Каждый из них выглядит и разные части скорости и условий для создания домена для конкретной информации, которая покрывается для индексации. Это используется в автоматизированном процессе индексации.[1]
В автоматизированном процессе могут возникать проблемы, которые в основном вызваны двумя факторами: 1) сложностью языка; и 2) недостаток интуитивности и сложность экстраполяции концепций из утверждений со стороны вычислительной технологии.[2] Это в первую очередь лингвистические проблемы, а конкретные проблемы связаны с семантическими и синтаксическими аспектами языка.[2] Эти проблемы возникают из-за определенных ключевых слов. С помощью этих ключевых слов вы можете определить точность системы на основе совпадений, промахов и шума. Эти термины относятся к точным совпадениям, ключевым словам, которые компьютерная система пропустила, а не человек, и ключевым словам, выбранным компьютером и отсутствующим у человека. Статистика точности, основанная на этом, должна быть выше 85% для Hits из 100% для индексации человека. Таким образом, промахи и шум составляют 15% или меньше. Эта шкала обеспечивает основу для того, что считается хорошей системой автоматической индексации, и показывает, где возникают проблемы.[1]
История
Некоторые ученые отмечают, что тема автоматического индексирования привлекала внимание еще в 1950-х годах, особенно в связи с потребностью в более быстром и полном доступе к научной и технической литературе.[3] Это внимание к индексации началось с обработки текста между 1957 и 1959 годами Х. Lunh через серию опубликованных статей. Лун предположил, что компьютер может обрабатывать сопоставление ключевых слов, сортировку и анализ контента. Это было началом автоматической индексации и формулы извлечения ключевых слов из текста на основе частотного анализа. Позже было определено, что одной частоты недостаточно для хороших дескрипторов, однако это положило начало пути к тому, где мы сейчас находимся с Автоматическим индексированием.[4] Это было подчеркнуто информационным взрывом, предсказанным в 1960-е гг.[5] и возник благодаря появлению информационных технологий и всемирной паутины. Прогноз был подготовлен Мурсом, где была создана схема с ожидаемой ролью вычислений для обработки текста и поиска информации. В этом прогнозе говорилось, что машины будут использоваться для хранения документов в больших коллекциях и что мы будем использовать эти машины для выполнения поиска. Мурс также предсказал онлайновый аспект и среду поиска для индексирования баз данных. Это привело Мурса к созданию машины индукционного вывода, которая произвела революцию в индексировании.[4] Это явление потребовало разработки системы индексации, способной справиться с задачей хранения и организации огромного количества данных и облегчить доступ к информации.[6][7] Новое электронное оборудование еще больше усовершенствовало автоматизированное индексирование, поскольку оно преодолело барьер, налагаемый старыми бумажными архивами, позволяя кодировать информацию на молекулярном уровне.[5] С этим новым электронным оборудованием были разработаны инструменты для помощи пользователям. Они использовались для управления файлами и были организованы в различные категории, такие как PDM Suite, такие как Outlook или Lotus Note, и инструменты Mind Mapping, такие как MindManager и Freemind. Это позволяет пользователям сосредоточиться на хранении и построении когнитивной модели.[8] Автоматическое индексирование также частично связано с появлением поля под названием компьютерная лингвистика, который руководил исследованиями, в результате которых были разработаны такие методы, как применение компьютерного анализа к структуре и значению языков.[3][9] Автоматическое индексирование дополнительно стимулируется исследованиями и разработками в области искусственный интеллект и самоорганизующаяся система также называется думающей машиной.[3]
Смотрите также
Индексирование тем - процесс, который автоматизирован за счет автоматической индексации
^ абcХлава, Марджори М. (31 января 2005 г.). «Автоматическое индексирование: вопрос степени». Бюллетень Американского общества информационных наук и технологий. 29 (1): 12–15. Дои:10.1002 / bult.261.
^ абКливленд, Ана; Кливленд, Дональд (2013). Введение в индексирование и реферирование: четвертое издание. Санта-Барбара, Калифорния: ABC-CLIO. п. 289. ISBN9781598849769.
^ абcРиаз, Мухаммад (1989). Расширенные практики индексирования и абстрагирования. Дели: Атлантические издатели и дистрибьюторы. п. 263.
^ абИсторическая справка: последние тридцать лет информационного поиска Salton, Gerard Journal Американского общества информационных наук (1986–1998); Sep 1987; 38, 5; ProQuest стр. 375
^ абТоррес-Морено, Хуан-Мануэль (2014). Автоматическое суммирование текста. Хобокен, Нью-Джерси: Джон Уайли и сыновья. стр. xii. ISBN9781848216686.
^Капетаниос, Эпаминонд; Сугумаран, Виджаян; Естественный язык и информационные системы: 13-я Международная конференция по применению естественного языка в информационных системах, NLDB 2008, Лондон, Великобритания, 24-27 июня 2008 г., Proceedings, Myra (2008). Естественный язык и информационные системы: 13-я Международная конференция по приложениям естественного языка к информационным системам, NLDB 2008, Лондон, Великобритания, 24-27 июня 2008 г., Материалы. Берлин: Springer Science & Business Media. п. 350. ISBN978-3-540-69857-9.CS1 maint: несколько имен: список авторов (ссылка на сайт)