Открытый разум, здравый смысл - Open Mind Common Sense

Открытый разум, здравый смысл (OMCS) является искусственный интеллект проект на базе Массачусетский Институт Технологий (Массачусетский технологический институт) Медиа-лаборатория чьей целью является создание и использование большого база знаний здравого смысла благодаря вкладу многих тысяч людей в Интернете.

С момента своего основания в 1999 году он собрал более миллиона английских фактов от более чем 15 000 участников в дополнение к базам знаний на других языках. Большая часть программного обеспечения OMCS построена на трех взаимосвязанных представлениях: корпусе естественного языка, с которым люди взаимодействуют напрямую, семантическая сеть, построенная на основе этого корпуса, называемая ConceptNet, и матричное представление ConceptNet, называемое Аналогия которые могут вывести новые знания с помощью уменьшения размерности.[1] Знания, собранные Open Mind Common Sense, позволили проводить исследовательские проекты в Массачусетском технологическом институте и других местах.

История

Проект был детищем Марвин Мински, Пуш Сингх, Кэтрин Хаваси, и другие. Разработка началась в сентябре 1999 года, а год спустя проект был открыт для Интернета. Хаваси описала это в своей диссертации как «попытку ... обуздать часть распределенных человеческих вычислительных мощностей Интернета, идея, которая тогда была только в начальной стадии».[2] На оригинальную OMCS повлиял сайт Все2 и его предшественник, и представил минималистичный интерфейс, вдохновленный Google.

Пуш Сингх должен был стать профессором MIT Media Lab руководить группой Common Sense Computing в 2007 году до самоубийства во вторник, 28 февраля 2006 года.[3]

В настоящее время проектом руководит группа Digital Intuition в лаборатории MIT Media Lab под руководством Кэтрин Хаваси.[нужна цитата ]

База данных и сайт

В OMCS есть много разных типов знаний. Некоторые утверждения передают отношения между объектами или событиями, выраженные простыми фразами естественного языка: некоторые примеры включают: «Пальто используется для согрева», «Солнце очень жарко» и «Последнее, что вы делаете, когда готовите ужин, - это мыть посуду ». База данных также содержит информацию об эмоциональном содержании ситуаций в таких утверждениях, как «Проведение времени с друзьями приносит счастье» и «Попадание в автомобильную аварию вызывает гнев». OMCS содержит информацию о желаниях и целях людей, больших и малых, таких как «Люди хотят, чтобы их уважали» и «Люди хотят хорошего кофе».[1]

Первоначально эти утверждения могли быть введены на веб-сайт как неограниченные предложения текста, которые нужно было анализировать позже. Текущая версия веб-сайт собирает знания только с помощью более структурированных шаблонов для заполнения пустых полей. OMCS также использует данные, собранные Игра с целью "Многословие ".[4]

В своей собственной форме база данных OMCS представляет собой просто набор этих коротких предложений, которые передают некоторые общие знания. Чтобы использовать эти знания в вычислительных целях, их необходимо преобразовать в более структурированное представление.

ConceptNet

ConceptNet - это семантическая сеть на основе информации в базе данных OMCS. ConceptNet выражается в виде ориентированного графа, узлы которого являются концепциями, а ребра - утверждениями здравого смысла в отношении этих концепций. Понятия представляют собой наборы тесно связанных фраз естественного языка, которые могут быть именными, глагольными, прилагательными или придаточными.[5]

ConceptNet создается из утверждений на естественном языке в OMCS путем сопоставления их с шаблонами с использованием поверхностного синтаксического анализатора. Утверждения выражаются как отношения между двумя понятиями, выбранными из ограниченного набора возможных отношений. Различные отношения представляют собой общие шаблоны предложений, обнаруженные в корпусе OMCS, и, в частности, каждый шаблон «заполнить пробелы», используемый на веб-сайте сбора знаний, связан с определенным отношением.[5]

Структуры данных, составляющие ConceptNet, были значительно реорганизованы в 2007 году и опубликованы как ConceptNet 3.[5] Группа программных агентов в настоящее время распространяет базу данных и API для новой версии 4.0.[6]

В 2010 году соучредитель и директор OMCS Кэтрин Хаваси вместе с Робин Спир, Деннисом Кларком и Джейсоном Алонсо создали Luminoso, компания по разработке программного обеспечения для текстовой аналитики, основанная на ConceptNet.[7][8][9][10] Он использует ConceptNet в качестве основного лексического ресурса, чтобы помочь предприятиям разобраться в огромных объемах качественных данных, включая опросы, обзоры продуктов и социальные сети, и извлечь их из них.[7][11][12]

Инструменты машинного обучения

Информация в ConceptNet может быть использована в качестве основы для машинное обучение алгоритмы. Одно представление, называемое AnalogySpace, использует разложение по сингулярным числам для обобщения и представления закономерностей в знаниях в ConceptNet таким образом, чтобы их можно было использовать в приложениях ИИ. Его создатели распространяют набор инструментов для машинного обучения Python под названием Divisi. [13] для выполнения машинного обучения на основе корпусов текстов, структурированных баз знаний, таких как ConceptNet, и их комбинаций.

Сравнение с другими проектами

Другие похожие проекты включают Бесконечное изучение языка, Mindpixel (снято с производства), Цикл, Учащийся, SenticNet, Freebase, ЯГО, DBpedia и Open Mind 1001 Questions, в которых исследуются альтернативные подходы к сбору знаний и стимулированию участия.

Проект Open Mind Common Sense отличается от Cyc тем, что он сосредоточен на представлении собранных знаний здравого смысла в виде предложений на английском языке, а не на использовании формальной логической структуры. ConceptNet описывается одним из его создателей, Хьюго Лю, как структурированный, больше похожий на WordNet чем Cyc, из-за его «акцента на неформальной концептуальной связности над формальной лингвистической строгостью».[14]

Существует также бразильская инициатива под названием Open Mind Common Sense in Brazil (OMCS-Br), возглавляемая лабораторией Advanced Interaction Lab Федерального университета Сан-Карлос (LIA-UFSCar ). Этот проект стартовал в 2005 году в сотрудничестве с группой программных агентов в MIT Media Lab. Основная цель - собрать здравый смысл, изложенный на бразильском португальском языке, и использовать его для разработки. культурно чувствительный программные приложения, основанные на извлечении знаний о культурных профилях из ConceptNet. Это предназначено, чтобы помочь разработчикам и пользователям с программным обеспечением с культурно контекстуализированным контентом, делая конечные приложения более гибкими, адаптивными, доступными и удобными. Основные направления работы приложений - образование и здравоохранение.[нужна цитата ]

Смотрите также

Рекомендации

  1. ^ а б Робин Спир, Кэтрин Хаваси и Генри Либерман. AnalogySpace: уменьшение размерности здравого смысла В архиве 2010-07-09 в Wayback Machine. AAAI 2008.
  2. ^ Катрин Хаваси. Обнаружение семантических отношений с использованием методов, основанных на декомпозиции единственного значения. Кандидатская диссертация, Университет Брандейс, июнь 2009 г.
  3. ^ MIT News Office (2008-03-08). «На завтра панихида по Пушпиндеру Сингху». MIT Tech Talk. Получено 2009-10-07.
  4. ^ «Профиль для многословия». Open Mind Commons Sense. Архивировано из оригинал на 25.06.2010.
  5. ^ а б c Кэтрин Хаваси, Робин Спир и Джейсон Алонсо. ConceptNet 3: гибкая многоязычная семантическая сеть для знаний здравого смысла. Труды последних достижений в обработке естественного языка, 2007. try ConceptNet 3: ... В архиве 2015-05-29 в Wayback Machine
  6. ^ Commonsense Computing Initiative (24 февраля 2009 г.). «API ConceptNet в Launchpad». Получено 2009-10-07.
  7. ^ а б Лор, Стив (27 июня 2014 г.). «Матч США и Германии через призму социальных сетей». Нью-Йорк Таймс. Получено 3 марта 2015.
  8. ^ Русли, Эвелин (14 апреля 2014 г.). «Фирмы используют искусственный интеллект, чтобы узнать мнение покупателей». Журнал "Уолл Стрит. Получено 3 марта 2015.
  9. ^ Альба, Дэйви (12 февраля 2015 г.). «Стартап, который помогает анализировать разговоры в Twitter в реальном времени». Проводной. Получено 3 марта 2015.
  10. ^ Нойес, Кэтрин (11 февраля 2015 г.). «Luminoso для предприятий: вот что на самом деле означает вся эта болтовня». Компьютерный мир. Получено 3 марта 2015.
  11. ^ Миллер, Рон (2 июля 2014 г.). «Luminoso выделяет 6,5 млн долларов в рамках серии A для продолжения создания службы облачной текстовой аналитики». TechCrunch. Получено 3 марта 2015.
  12. ^ Дэрроу, Барб (11 февраля 2015 г.). «Luminoso привносит интеллектуальный анализ текста в потоковую передачу данных». ГигаОм. Получено 3 марта 2015.
  13. ^ Commonsense Computing Initiative (24 февраля 2009 г.). "Divisi in Launchpad". Получено 2009-10-07.
  14. ^ «Проект ConceptNet V2.1». Получено 2008-12-17.

внешняя ссылка