MeCab - Википедия - MeCab

MeCab
Разработчики)Таку Кудо, Японский ввод Google проект
Стабильный выпуск
0.996 / 18 февраля 2013; 7 лет назад (2013-02-18)
Репозиторий Отредактируйте это в Викиданных
Написано вC ++, имеет модули для C, C #, Ява, Perl, Python, и Рубин
ПлатформаКроссплатформенность
ЛицензияИмеет три лицензии под GPL, LGPL и Лицензии BSD
Интернет сайтhttps://taku910.github.io/mecab

MeCab является Открытый исходный код сегментация текста библиотека для использования с текстом, написанным в японский язык первоначально разработан Институт науки и технологий Нара и в настоящее время поддерживается Таку Кудо (工藤 拓) как часть его работы над Японский ввод Google проект.[1][2] Название происходит от любимой еды разработчика, Мекабу [я ] (和 布 蕪), а Японское блюдо сделан из вакаме листья.

Программное обеспечение изначально было основано на ChaSen и разрабатывался под названием ChaSenTNG, но теперь он разработан независимо от ChaSen и был переписан с нуля. Точность анализа MeCab сравнима с ChaSen, а его скорость анализа в среднем в 3–4 раза выше.

MeCab может анализировать и разбивать предложение на части речи. Для MeCab доступно несколько словарей, но IPADIC является наиболее часто используемым, как и в случае с ChaSen.

В 2007 году Google использовал MeCab для создания н-грамм данные для большого корпуса японского текста, который он опубликовал в своем блоге Google Japan.[3]

MeCab также используется для Японский ввод на Mac OS X 10,5 и 10,6, а в iOS начиная с версии 2.1.[4][5]

Пример

Вход:

ウ ィ キ ペ デ ィ ア (Wikipedia) は 誰 で も 編 集 で き る 百科 事 典 で す

Результаты в:

ウ ィ キ ペ デ ィ ア 名詞, 一般, *, *, *, *, * (記号, 括弧 開, *, *, *, *, (, (, (Wikipedia 名詞, 固有, 組織, *, *, *, *) 記号, 閉, *, *, *, *,),),) は 助詞, 係 助詞, *, *, *, *, は, ハ, ワ 誰 名詞, 代名詞, 一般, *, *, *, 誰, レ, ダ レ で も 助詞, 副 助詞, *, *, *, *, で も, デ モ, デ モ 編 集 名詞, サ 変 接 続, *, *, *, *, 編 集, ヘ ン シ, ウ,, シ * , 一段, 基本 形, で き る, デ キ ル, デ キ ル フ リ ー 名詞, 一般, *, *, *, *, フ リ ー, フ リ ー, フ リ ー 百科 名詞, 一般, *, *, *, *,, ヒ, , *, *, *, *, 事 典, ジ テ ン, ジ テ ン で す 助動詞, *, *, *, 特殊 ・ デ ス, 基本 形, で す, デ ス, デ ス EOS

Помимо сегментации текста, MeCab также перечисляет часть речи слова и, если применимо и в словаре, его произношение. В приведенном выше примере глагол で き る (декиру, "уметь") классифицируется как ичидан (一段) глагол (動詞) в инфинитиве (基本 形). Слово で も (демо) идентифицируется как наречная частица (副 助詞). Поскольку не все столбцы применимы ко всем словам, когда столбец не относится к слову, используется звездочка; это позволяет форматировать информацию после слова и символ табуляции как значения, разделенные запятыми.

MeCab также поддерживает несколько выходных форматов; один из которых, Chasen, выходы значения, разделенные табуляцией в формате, который программы написаны для ChaSen можно использовать. Другой формат, Ёми (от 読 む Йому, читать), выдает произношение введенного текста как катакана,[6] как показано ниже.

ウ ィ キ ペ デ ィ ア (Wikipedia) ハ ダ レ デ モ ヘ ン シ ュ ウ キ ル リ ー カ ジ テ ン デ ス

Рекомендации

  1. ^ "「 グ グ る 」の 精度 め る た め に 必要 な も の - @IT 自 分 戦 略 研究所" [Что нужно Google для повышения точности]. ITmedia (на японском языке). 2006-03-15. Получено 2009-04-09.
  2. ^ "思 い ど お り の 日本語 入 力 - Google 日本語 入 力" [К более точным данным на японском языке]. Google (на японском языке). 2009-12-03. Получено 2009-12-03.
  3. ^ "Блог Google Japan: 大規模 日本語 n-gram デ ー タ の 公開" [Публикация данных n-граммов в большом корпусе японских текстов]. Google (на японском языке). 2007-11-01. Получено 2009-04-09.
  4. ^ "大規模 テ キ ス ト 処理 を 支 え る 形態 素 解析 技術 (工藤 拓 氏 ・ Google)" [(Лекция) Морфологический анализ поддерживает крупномасштабную обработку текста (г-н Таку Кудо, сотрудник Google)] (на японском языке). 2009-12-03. Получено 2009-12-03.
  5. ^ «iPhone の 仮 名 漢字 変 換 MeCab を 利用» [iPhone использует MeCab для преобразования кана-кандзи] (на японском языке). 2009-12-03. Архивировано из оригинал на 2008-09-18. Получено 2009-12-03.
  6. ^ Кудо, Таку. "MeCab: еще один анализатор частей речи и морфологии". taku910.github.io (на японском языке). Получено 23 января 2018.

внешняя ссылка