IndoWordNet - IndoWordNet
IndoWordNet[1] представляет собой связанную лексическую базу знаний из словарных сетей из 18 запланированные языки Индии, а именно ассамский, бангла, бодо, гуджарати, хинди, каннада, кашмири, конкани, малаялам, мейтей (манипури), маратхи, непальский, одия, пенджаби, санскрит, тамильский, телугу и урду.
Задний план
В начале 90-х годов в сети для английского языка называлось Princeton WordNet - была создана в Принстонском университете Джорджем Миллером и Кристиан Феллбаум, получившими в 2006 году престижную премию Замполи.[2] Затем последовали EuroWordNet - конгломерат европейских языковых сетей, созданный в 1998 году.[3] Wordnet теперь является важным ресурсом для Обработка естественного языка, Извлечение информации, Устранение неоднозначности смысла слов и другие подобные вычисления с участием текста.
Важность индийских языков
Индийские языки составляют очень значительную часть языкового ландшафта мира. На Индийском субконтиненте действуют 4 потока языковой типологии: индоевропейский, дравидийский, тибето-бирманский и австроазиатский.[4] Многие языки входят в десятку лучших в мире по количеству говорящего на них населения, например, 5-й хинди-урду, 7-й бангла, 12-й маратхи и т. Д. Список языков по количеству носителей языка. Поэтому создание словарных сетей индийских языков является очень важным научно-техническим и лингвистическим проектом.
Генезис словарных сетей индийского языка
Такой проект действительно начался в 2000 году, когда Хинди WordNet был создан Обработка естественного языка группа в Центре индийских языковых технологий (CFILT) на факультете компьютерных наук и инженерии в ИИТ Бомбей.[5] Он стал общедоступным в 2006 году под лицензией GNU. Хинди WordNet был создан при поддержке проекта TDIL Министерства связи и информационных технологий Индии, а также частично Министерства развития человеческих ресурсов Индии.
Затем этому примеру последовали сети словаря других языков Индии. Крупный общенациональный проект создания сетей слова на индийском языке получил название проекта IndoWordNet. IndoWordNet[1] представляет собой связанную лексическую базу знаний из словарных сетей из 18 запланированные языки Индии, а именно ассамский, бангла, бодо, гуджарати, хинди, каннада, кашмири, конкани, малаялам, мейтей, маратхи, непальский, ория, пенджаби, санскрит, тамильский, телугу и урду. Вордовые сети создаются с использованием подход к расширению из хинди WordNet. WordNet на хинди был создан на основе первых принципов (упомянутых ниже) и был первым WordNet для индийского языка. Использованный метод был таким же, как и Princeton WordNet для английского.
Польский WordNet отображается в Princeton WordNet на основе стратегии, которой придерживается IndoWordNet.[6]
Принципы построения wordnet
Wordnets следуют принципам минимальности, охвата и заменяемости наборов слов. Это означает, что в синсете должен быть по крайней мере «основной» набор лексем, которые однозначно задают концепцию, представленную синсетом (минимальность), например, {дом, семья} означает понятие «семья» («она из дворянского дома »). Затем синсет должен охватывать ВСЕ слова, представляющие концепцию на языке (охват), например, слово «menage» должно появиться в синсете «семья», хотя и ближе к концу синсета, поскольку его использование редко. . Наконец, слова в начале синсета должны иметь возможность заменять друг друга в разумном количестве корпусов (возможность замены), например, «дом» и «семья» могут заменять друг друга в предложении «она из благородного дома» .
Статистика словарных сетей индийского языка
Количество синсетов (по состоянию на август 2014 г.) для языков и институтов, создающих языковые сети WordNets, указано ниже:
Резюме
IndoWordNet очень похож на EuroWordNet. Однако основным языком является хинди, который, конечно же, связан с английским WordNet. Также типичные явления индийского языка, такие как сложные предикаты и причинные глаголы захвачены в IndoWordNet.
IndoWordNet является общедоступным. Усилия по созданию словарной сети на индийском языке, составляющие подкомпоненты проекта IndoWordNet, включают: проект North East WordNet, проект Dravidian WordNet и проект Indradhanush, все из которых финансируются проектом TDIL.
использованная литература
- ^ а б Пушпак Бхаттачарья, IndoWordNet, Конференция по разработке лексических ресурсов 2010 (LREC 2010), Мальта, май 2010 г.
- ^ Кристиан Феллбаум (редактор), WordNet: электронная лексическая база данных, MIT Press, 1998.
- ^ П. Фоссен (редактор), EuroWordNet: многоязычная база данных с лексическими семантическими сетями, Kluwer Pub., 1998.
- ^ Джозеф Э. Шварцберг,Британская энциклопедия, Индия - лингвистический состав, 2007.
- ^ Дипак Нараян, Дебасри Чакрабарти, Прабхакар Панде и П. Бхаттачарья. Опыт построения Indo WordNet - WordNet для хинди, Международная конференция по глобальной сети WordNet (GWC 02), Майсур, Индия, январь 2002 г.
- ^ Рудницка, Э., Мазиарц, М., Пясецки, М., и Шпакович, С. (2012). Отображение plWordNet на Princeton WordNet, 24-я Международная конференция по компьютерной лингвистике (COLING), Индия, декабрь 2012 г.