IndoWordNet - IndoWordNet

IndoWordNet^[1] представляет собой связанную лексическую базу знаний из словарных сетей из 18 запланированные языки Индии, а именно ассамский, бангла, бодо, гуджарати, хинди, каннада, кашмири, конкани, малаялам, мейтей (манипури), маратхи, непальский, одия, пенджаби, санскрит, тамильский, телугу и урду.

Задний план

В начале 90-х годов в сети для английского языка называлось Princeton WordNet - была создана в Принстонском университете Джорджем Миллером и Кристиан Феллбаум, получившими в 2006 году престижную премию Замполи.^[2] Затем последовали EuroWordNet - конгломерат европейских языковых сетей, созданный в 1998 году.^[3] Wordnet теперь является важным ресурсом для Обработка естественного языка, Извлечение информации, Устранение неоднозначности смысла слов и другие подобные вычисления с участием текста.

Важность индийских языков

Индийские языки составляют очень значительную часть языкового ландшафта мира. На Индийском субконтиненте действуют 4 потока языковой типологии: индоевропейский, дравидийский, тибето-бирманский и австроазиатский.^[4] Многие языки входят в десятку лучших в мире по количеству говорящего на них населения, например, 5-й хинди-урду, 7-й бангла, 12-й маратхи и т. Д. Список языков по количеству носителей языка. Поэтому создание словарных сетей индийских языков является очень важным научно-техническим и лингвистическим проектом.

Генезис словарных сетей индийского языка

Такой проект действительно начался в 2000 году, когда Хинди WordNet был создан Обработка естественного языка группа в Центре индийских языковых технологий (CFILT) на факультете компьютерных наук и инженерии в ИИТ Бомбей.^[5] Он стал общедоступным в 2006 году под лицензией GNU. Хинди WordNet был создан при поддержке проекта TDIL Министерства связи и информационных технологий Индии, а также частично Министерства развития человеческих ресурсов Индии.

Затем этому примеру последовали сети словаря других языков Индии. Крупный общенациональный проект создания сетей слова на индийском языке получил название проекта IndoWordNet. IndoWordNet^[1] представляет собой связанную лексическую базу знаний из словарных сетей из 18 запланированные языки Индии, а именно ассамский, бангла, бодо, гуджарати, хинди, каннада, кашмири, конкани, малаялам, мейтей, маратхи, непальский, ория, пенджаби, санскрит, тамильский, телугу и урду. Вордовые сети создаются с использованием подход к расширению из хинди WordNet. WordNet на хинди был создан на основе первых принципов (упомянутых ниже) и был первым WordNet для индийского языка. Использованный метод был таким же, как и Princeton WordNet для английского.

Польский WordNet отображается в Princeton WordNet на основе стратегии, которой придерживается IndoWordNet.^[6]

Принципы построения wordnet

Wordnets следуют принципам минимальности, охвата и заменяемости наборов слов. Это означает, что в синсете должен быть по крайней мере «основной» набор лексем, которые однозначно задают концепцию, представленную синсетом (минимальность), например, {дом, семья} означает понятие «семья» («она из дворянского дома »). Затем синсет должен охватывать ВСЕ слова, представляющие концепцию на языке (охват), например, слово «menage» должно появиться в синсете «семья», хотя и ближе к концу синсета, поскольку его использование редко. . Наконец, слова в начале синсета должны иметь возможность заменять друг друга в разумном количестве корпусов (возможность замены), например, «дом» и «семья» могут заменять друг друга в предложении «она из благородного дома» .

Статистика словарных сетей индийского языка

Количество синсетов (по состоянию на август 2014 г.) для языков и институтов, создающих языковые сети WordNets, указано ниже:

Язык	Synsets	Институт
Ассамский	14958	Университет Гувахати, Гувахати, Ассам
Бенгальский	36346	Индийский статистический институт, Калькутта, Западная Бенгалия
Бодо	15785	Университет Гувахати, Гувахати, Ассам
Гуджарати	35599	Университет Дхарамсинх Десаи, Надиад, Гуджарат
хинди	38607	ИИТ Бомбей, Мумбаи, Махараштра
Каннада	20033	Майсурский университет, Майсур, Карнатака
Кашмири	29469	Кашмирский университет, Сринагар, Джамму и Кашмир
Конкани	32370	Университет Гоа, Талейгао, Гоа
Малаялам	30060	Университет Амриты, Коимбатур, Тамил Наду
Маратхи	29674	ИИТ Бомбей, Мумбаи, Махараштра
Meitei	16351	Университет Манипура, Импхал, Манипур
Непальский	11713	Ассамский университет, Силчар, Ассам
Ория	35284	Центральный университет Хайдарабада, Хайдарабад, Андхра-Прадеш
Пенджаби	32364	Университет Тапар и Пенджабский университет, Патиала, Пенджаб
санскрит	23140	ИИТ Бомбей, Мумбаи, Махараштра
Тамильский	25431	Тамильский университет, Танджавур, Тамил Наду
телугу	21925	Дравидийский университет, Куппам, Андхра-Прадеш
Урду	34280	Университет Джавахарлала Неру, Нью-Дели

Резюме

IndoWordNet очень похож на EuroWordNet. Однако основным языком является хинди, который, конечно же, связан с английским WordNet. Также типичные явления индийского языка, такие как сложные предикаты и причинные глаголы захвачены в IndoWordNet.

IndoWordNet является общедоступным. Усилия по созданию словарной сети на индийском языке, составляющие подкомпоненты проекта IndoWordNet, включают: проект North East WordNet, проект Dravidian WordNet и проект Indradhanush, все из которых финансируются проектом TDIL.

использованная литература

^ ^а ^б Пушпак Бхаттачарья, IndoWordNet, Конференция по разработке лексических ресурсов 2010 (LREC 2010), Мальта, май 2010 г.
^ Кристиан Феллбаум (редактор), WordNet: электронная лексическая база данных, MIT Press, 1998.
^ П. Фоссен (редактор), EuroWordNet: многоязычная база данных с лексическими семантическими сетями, Kluwer Pub., 1998.
^ Джозеф Э. Шварцберг,Британская энциклопедия, Индия - лингвистический состав, 2007.
^ Дипак Нараян, Дебасри Чакрабарти, Прабхакар Панде и П. Бхаттачарья. Опыт построения Indo WordNet - WordNet для хинди, Международная конференция по глобальной сети WordNet (GWC 02), Майсур, Индия, январь 2002 г.
^ Рудницка, Э., Мазиарц, М., Пясецки, М., и Шпакович, С. (2012). Отображение plWordNet на Princeton WordNet, 24-я Международная конференция по компьютерной лингвистике (COLING), Индия, декабрь 2012 г.

внешние ссылки

Официальный веб-сайт

[PushpakBhattacharyya-1] а ^б Пушпак Бхаттачарья, IndoWordNet, Конференция по разработке лексических ресурсов 2010 (LREC 2010), Мальта, май 2010 г.

[2] Кристиан Феллбаум (редактор), WordNet: электронная лексическая база данных, MIT Press, 1998.

[3] П. Фоссен (редактор), EuroWordNet: многоязычная база данных с лексическими семантическими сетями, Kluwer Pub., 1998.

[4] Джозеф Э. Шварцберг,Британская энциклопедия, Индия - лингвистический состав, 2007.

[5] Дипак Нараян, Дебасри Чакрабарти, Прабхакар Панде и П. Бхаттачарья. Опыт построения Indo WordNet - WordNet для хинди, Международная конференция по глобальной сети WordNet (GWC 02), Майсур, Индия, январь 2002 г.

[6] Рудницка, Э., Мазиарц, М., Пясецки, М., и Шпакович, С. (2012). Отображение plWordNet на Princeton WordNet, 24-я Международная конференция по компьютерной лингвистике (COLING), Индия, декабрь 2012 г.

[1]

[2]

[3]

[4]

[5]

[6]