Условная модель с ограничениями - Википедия - Constrained conditional model

А условная модель с ограничениями (CCM) - это машинное обучение и структура вывода, которая дополняет изучение условных (вероятностных или дискриминативных) моделей декларативными ограничениями. Ограничение может использоваться как способ включения выразительного^{[требуется разъяснение ]} предварительное знание в модели и смещение назначений, сделанных изученной моделью, для удовлетворения этих ограничений. Каркас может использоваться для поддержки решений в пространстве выразительных результатов, сохраняя при этом модульность и управляемость обучения и вывода.

Такие модели в последнее время^{[когда? ]} привлек большое внимание^{[нужна цитата ]} при обработке естественного языка (НЛП ), формулируя проблемы как ограниченная оптимизация Проблемы с выводом изученных моделей имеют несколько преимуществ. Это позволяет сосредоточиться на моделировании проблем, предоставляя возможность включить предметно-ориентированные знания в качестве глобальных ограничений с использованием языка первого порядка. Использование этой декларативной структуры освобождает разработчика от низкого уровня разработка функций фиксируя характерные для предметной области свойства проблемы и обеспечивая точный вывод. С точки зрения машинного обучения это позволяет отделить этап генерации модели (обучения) от этапа ограниченного вывода, тем самым помогая упростить этап обучения при одновременном повышении качества решений. Например, в случае создания сжатых предложений вместо того, чтобы просто полагаться на языковую модель для сохранения наиболее часто используемых n-граммов в предложении, можно использовать ограничения, чтобы гарантировать, что если модификатор сохраняется в сжатом предложении, его тема также будет сохранена.

Мотивация

Принятие решений во многих областях (таких как обработка естественного языка и проблемы компьютерного зрения) часто включает присвоение значений наборам взаимозависимых переменных, в которых выразительная структура зависимостей может влиять или даже диктовать, какие назначения возможны. Эти настройки применимы не только к задачам структурированного обучения, таким как разметка семантических ролей, но также и для случаев, когда требуется использование нескольких предварительно изученных компонентов, таких как резюмирование, текстовое следование и ответы на вопросы. Во всех этих случаях естественно сформулировать проблему принятия решения как задачу оптимизации с ограничениями, с целевой функцией, которая состоит из изученных моделей, с учетом ограничений предметной области или конкретной задачи.

Условные модели с ограничениями формируют структуру обучения и вывода, которая дополняет изучение условных (вероятностных или дискриминативных) моделей декларативными ограничениями (написанными, например, с использованием представления первого порядка) как способ поддержки решений в выразительном пространстве вывода при сохранении модульность и управляемость обучения и вывода. Эти ограничения могут выражать либо жесткие ограничения, полностью запрещающие некоторые назначения, либо мягкие ограничения, наказывающие маловероятные назначения. В большинстве приложений этой структуры в НЛП,^[1] Целочисленное линейное программирование (ILP) использовалось в качестве структуры вывода, хотя для этой цели можно использовать и другие алгоритмы.

Формальное определение

Учитывая набор функций функций ${ Displaystyle { phi _ {я} (х, у) }}$ и набор ограничений ${ Displaystyle {C_ {я} (х, у) }}$ , определенный над входной структурой ${ displaystyle x in X}$ и структура вывода ${ displaystyle y in Y}$ , условная модель ограничений характеризуется двумя весовыми векторами, w и ${ displaystyle rho}$ , и определяется как решение следующей задачи оптимизации:

{ displaystyle argmax_ {y} sum _ {i} w_ {i} phi _ {i} (x, y) - sum rho _ {i} C_ {i} (x, y)}

.

Каждое ограничение ${ displaystyle C_ {i} in C}$ является логическим отображением, указывающим, что совместное присвоение ${ Displaystyle (х, у)}$ нарушает ограничение, и ${ displaystyle rho}$ - штраф, понесенный за нарушение ограничений. Ограничения, которым назначается бесконечный штраф, называются жесткими ограничениями и представляют собой невыполнимые задания для задачи оптимизации.

Парадигмы обучения

Изучение местных и глобальных моделей

Целевая функция, используемая СКК, может быть разложена и изучена несколькими способами, начиная от полного совместного обучения модели вместе с ограничениями до полного разделения обучения и стадии вывода. В последнем случае несколько локальных моделей изучаются независимо, и зависимость между этими моделями учитывается только во время принятия решения через глобальный процесс принятия решения. Преимущества каждого подхода обсуждаются в ^[2] который изучает две парадигмы обучения: (1) локальные модели: L + I (обучение + вывод) и (2) глобальная модель: IBT (обучение на основе вывода) и показывает как теоретически, так и экспериментально, что в то время как IBT (совместное обучение) является лучшим в пределе, при некоторых условиях (в основном, «хорошие» компоненты) L + Я могу лучше обобщить.

Способность CCM комбинировать локальные модели особенно полезна в тех случаях, когда совместное обучение трудноразрешим с вычислительной точки зрения или когда данные обучения недоступны для совместного обучения. Эта гибкость отличает CCM от других систем обучения, которые также сочетают статистическую информацию с декларативными ограничениями, такими как Марковская логическая сеть, которые делают упор на совместное обучение.

СКК с минимальным надзором

CCM может помочь уменьшить контроль, используя базовые знания (выражается в виде ограничений) для стимулирования обучения. Эти настройки изучались в ^[3] и.^[4] Эти работы представляют полууправляемое обучение, управляемое ограничениями (CODL), и показывают, что за счет включения знаний предметной области производительность изученной модели значительно улучшается.

Изучение скрытых представлений

CCM также применяются к структурам скрытого обучения, где проблема обучения определяется на уровне скрытого представления. Поскольку понятие правильное представление по своей природе плохо определен, учащийся не может получить никаких данных, отмеченных золотым стандартом, относительно решения о представлении. Определение правильного (или оптимального) обучающего представления рассматривается как структурированный прогноз процесс и поэтому моделируется как СКК. Этой проблеме было посвящено несколько статей, в обеих^[5] и без присмотра ^[6] настройки. Во всех случаях исследования показали, что явное моделирование взаимозависимостей между решениями о представлении с помощью ограничений приводит к повышению производительности.

Целочисленное линейное программирование для приложений обработки естественного языка

Преимущества декларативной формулировки CCM и наличие готовых решающих программ привели к появлению большого разнообразия обработка естественного языка задачи, сформулированные в рамках, в том числе маркировка семантических ролей,^[7] синтаксический анализ,^[8] Coreference разрешающая способность,^[9] обобщение,^[10]^[11]^[12] транслитерация,^[13] генерация естественного языка ^[14] и совместная информация добыча.^[15]^[16]

В большинстве этих работ используется решатель целочисленного линейного программирования (ILP) для решения проблемы принятия решения. Хотя теоретически решение целочисленной линейной программы экспоненциально зависит от размера проблемы решения, на практике с использованием современных решателей и приблизительный вывод техники ^[17] большие проблемы могут быть решены эффективно.

Ключевым преимуществом использования решателя ILP для решения задачи оптимизации, определенной условной моделью с ограничениями, является декларативная формулировка, используемая в качестве входных данных для решателя ILP, состоящая из линейной целевой функции и набора линейных ограничений.

Ресурсы

Учебное пособие по CCM Прогнозирование структур в НЛП: условные модели с ограничениями и целочисленное линейное программирование в НЛП

внешняя ссылка

Рекомендации

^ Дэн Рот и Вен-тау Йих, «Формулировка линейного программирования для глобального вывода в задачах естественного языка». CoNLL, (2004).
^ Васин Пуньяканок, Дэн Рот, Вен-Тау Йих и Дав Зимак, «Обучение и вывод по ограниченному выходу». IJCAI, (2005).
^ Мин-Вэй Чанг, Лев Ратинов и Дэн Рот, «Управление полунадзором с обучением, управляемым ограничениями». ACL, (2007).
^ Мин-Вэй Чанг, Лев Ратинов и Дэн Рот, «Ограничения как предварительное знание». Семинар ICML по предварительным знаниям для обработки текста и языка, (2008).
^ Минг-Вэй Чанг и Дэн Голдвассер, Дэн Рот и Вивек Срикумар, «Дискриминационное обучение по сдерживаемым скрытым представлениям». NAACL, (2010).
^ Мин-Вэй Чанг Дан Голдвассер Дэн Рот и Юаньчэн Ту, «Неконтролируемое обучение, управляемое ограничениями, для обнаружения транслитерации».^{[постоянная мертвая ссылка ]} NAACL, (2009).
^ Васин Пуньяканок, Дан Рот, Вен-тау Йих и Дав Зимак, «Семантическая маркировка ролей с помощью целочисленного вывода линейного программирования». КОЛИНГ, (2004).
^ Кендзи Сагаэ, Юсуке Мияо и Дзюнъити Цуджи, «Анализ HPSG с неглубокими ограничениями зависимости». ACL, (2007).
^ Паскаль Дени и Джейсон Болдридж, «Совместное определение анафоричности и разрешения кореферентности с использованием целочисленного программирования». В архиве 2010-06-21 на Wayback Machine NAACL-HLT, (2007).
^ Джеймс Кларк и Мирелла Лапата, «Глобальный вывод для сжатия предложений: подход целочисленного линейного программирования». Журнал исследований искусственного интеллекта (JAIR), (2008).
^ Катя Филиппова и Михаил Струбе, «Сжатие предложений на основе дерева зависимостей».^{[постоянная мертвая ссылка ]} INLG, (2008).
^ Катя Филиппова и Михаил Струбе, «Слияние предложений с помощью сжатия графа зависимостей». ЕМНЛП, (2008).
^ Дэн Голдвассер и Дэн Рот, «Транслитерация как ограниченная оптимизация». ЕМНЛП, (2008).
^ Регина Барзилай и Миррела Лапата, «Агрегация посредством разбиения на разделы для генерации естественного языка». NAACL, (2006).
^ Дэн Рот и Вен-тау Йих, «Формулировка линейного программирования для глобального вывода в задачах естественного языка». CoNLL, (2004).
^ Еджин Чой и Эрик Брек и Клэр Карди, «Совместное извлечение сущностей и отношений для признания мнения». ЕМНЛП, (2006).
^ Андре Ф. Т. Мартинс, Ноа А. Смит и Эрик П. Син, «Краткие целочисленные формулировки линейного программирования для анализа зависимостей». ACL, (2009).

[1] Дэн Рот и Вен-тау Йих, «Формулировка линейного программирования для глобального вывода в задачах естественного языка». CoNLL, (2004).

[2] Васин Пуньяканок, Дэн Рот, Вен-Тау Йих и Дав Зимак, «Обучение и вывод по ограниченному выходу». IJCAI, (2005).

[3] Мин-Вэй Чанг, Лев Ратинов и Дэн Рот, «Управление полунадзором с обучением, управляемым ограничениями». ACL, (2007).

[4] Мин-Вэй Чанг, Лев Ратинов и Дэн Рот, «Ограничения как предварительное знание». Семинар ICML по предварительным знаниям для обработки текста и языка, (2008).

[5] Минг-Вэй Чанг и Дэн Голдвассер, Дэн Рот и Вивек Срикумар, «Дискриминационное обучение по сдерживаемым скрытым представлениям». NAACL, (2010).

[6] Мин-Вэй Чанг Дан Голдвассер Дэн Рот и Юаньчэн Ту, «Неконтролируемое обучение, управляемое ограничениями, для обнаружения транслитерации».^{[постоянная мертвая ссылка ]} NAACL, (2009).

[7] Васин Пуньяканок, Дан Рот, Вен-тау Йих и Дав Зимак, «Семантическая маркировка ролей с помощью целочисленного вывода линейного программирования». КОЛИНГ, (2004).

[8] Кендзи Сагаэ, Юсуке Мияо и Дзюнъити Цуджи, «Анализ HPSG с неглубокими ограничениями зависимости». ACL, (2007).

[9] Паскаль Дени и Джейсон Болдридж, «Совместное определение анафоричности и разрешения кореферентности с использованием целочисленного программирования». В архиве 2010-06-21 на Wayback Machine NAACL-HLT, (2007).

[10] Джеймс Кларк и Мирелла Лапата, «Глобальный вывод для сжатия предложений: подход целочисленного линейного программирования». Журнал исследований искусственного интеллекта (JAIR), (2008).

[11] Катя Филиппова и Михаил Струбе, «Сжатие предложений на основе дерева зависимостей».^{[постоянная мертвая ссылка ]} INLG, (2008).

[12] Катя Филиппова и Михаил Струбе, «Слияние предложений с помощью сжатия графа зависимостей». ЕМНЛП, (2008).

[13] Дэн Голдвассер и Дэн Рот, «Транслитерация как ограниченная оптимизация». ЕМНЛП, (2008).

[14] Регина Барзилай и Миррела Лапата, «Агрегация посредством разбиения на разделы для генерации естественного языка». NAACL, (2006).

[15] Дэн Рот и Вен-тау Йих, «Формулировка линейного программирования для глобального вывода в задачах естественного языка». CoNLL, (2004).

[16] Еджин Чой и Эрик Брек и Клэр Карди, «Совместное извлечение сущностей и отношений для признания мнения». ЕМНЛП, (2006).

[17] Андре Ф. Т. Мартинс, Ноа А. Смит и Эрик П. Син, «Краткие целочисленные формулировки линейного программирования для анализа зависимостей». ACL, (2009).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]