Gensim - Gensim

Gensim
Gensim logo.png
Оригинальный автор (ы)Радим Жегуржек
Разработчики)RARE Technologies Ltd.
изначальный выпуск2009
Стабильный выпуск
3.8.3[1] / 4 мая 2020; 7 месяцев назад (4 мая 2020)
Репозиторийgithub.com/ РаРе-Технологии/ gensim
Написано вPython
Операционная системаLinux, Windows, macOS
ТипПоиск информации
ЛицензияLGPL
Интернет сайтRadimrehurek.com/ gensim/

Gensim является Открытый исходный код библиотека для неконтролируемых тематическое моделирование и обработка естественного языка, используя современные статистические машинное обучение.

Gensim реализован в Python и Cython. Gensim разработан для обработки больших текстовых коллекций с использованием потоковых данных и инкрементных онлайн-алгоритмов, что отличает его от большинства других программных пакетов машинного обучения, ориентированных только на обработку в памяти.

Основные особенности

Gensim включает потоковые распараллеленные реализации fastText,[2] word2vec и алгоритмы doc2vec,[3] а также латентно-семантический анализ (LSA, LSI, SVD), неотрицательная матричная факторизация (NMF), скрытое размещение Дирихле (LDA), tf-idf и случайные прогнозы.[4]

Некоторые из новых онлайн-алгоритмов в Gensim также были опубликованы в докторской диссертации 2011 г. Масштабируемость семантического анализа при обработке естественного языка Радима Жегуржека, создателя Gensim.[5]

Использование Gensim

Gensim использовался и цитировался в более чем 1400 коммерческих и академических приложениях по состоянию на 2018 год.[6] в самых разных дисциплинах, от медицины до анализа страховых случаев и патентного поиска.[7] Программное обеспечение было освещено в нескольких новых статьях, подкастах и ​​интервью.[8][9][10]

Бесплатная и коммерческая поддержка

Открытый исходный код разработан и размещен на GitHub[11] и общественный форум поддержки поддерживается на Группы Google[12] и Gitter.[13]

Gensim получает коммерческую поддержку от компании red-technologies.com, которая также предоставляет студентам наставничество и проекты академических диссертаций для Gensim через свою программу Student Incubator.[14]

Рекомендации

  1. ^ «Выпуск 3.8.3». 4 мая 2020. Получено 4 мая 2020.
  2. ^ Масштабируемость * 2vec обучение
  3. ^ Глубокое обучение с word2vec и Gensim
  4. ^ Радим Жегуржек и Петр Сойка (2010). Программный фреймворк для тематического моделирования с большим корпусом. Proc. Семинар LREC по новым вызовам для платформ НЛП
  5. ^ Ůehůřek, Radim (2011). «Масштабируемость семантического анализа при обработке естественного языка» (PDF). Получено 27 января 2015. мой открытый исходный код Gensim программный пакет, сопровождающий эту диссертацию
  6. ^ Академические цитаты Gensim
  7. ^ Коммерческие последователи Gensim
  8. ^ Podcast .__ init__ выпуск # 71 на Gensim
  9. ^ Интервью с Радимом Жегуржеком, создателем Gensim
  10. ^ http://decisionstats.com/2015/12/07/decisionstats-interview-radim-rehurek-gensim-python/
  11. ^ Исходный код Gensim на Github
  12. ^ Список рассылки Gensim в группах Google
  13. ^ Чат Gensim на Gitter
  14. ^ Инкубатор с открытым исходным кодом Gensim

внешняя ссылка