Вероятностно-серийная процедура - Википедия - Probabilistic-serial procedure

В вероятностная последовательная процедура (PS), также называемый алгоритм последовательного питания, это процедура для справедливое случайное распределение. Он дает случайное распределение неделимых элементов между несколькими агентами, что является без зависти и Парето эффективный. Это было предложено Эрве Мулен и Анна Богомольная.^[1]

Описание

Каждый предмет представлен в виде буханки хлеба (или другой еды). Вначале каждый агент подходит к своему любимому предмету и начинает его есть. Возможно, что несколько агентов съедят один и тот же продукт одновременно.

Каждый раз, когда предмет съеден полностью, каждый из агентов, съевших его, переходит к своему любимому оставшемуся предмету и начинает есть его таким же образом, пока не будут съедены все предметы.

Для каждого предмета записывается доля этого предмета, съеденного каждым агентом. Эти дроби считаются вероятностями. На основе этих вероятностей проводится лотерея. Тип лотереи зависит от проблемы:

Если каждому агенту разрешено получить любое количество предметов, то для каждого предмета может быть проведена отдельная лотерея. Каждый предмет дается одному из агентов, который съел его часть, выбранный случайным образом в соответствии с распределением вероятности для этого предмета.
Если каждый агент должен получить ровно один предмет, то должна быть единственная лотерея, которая выбирает назначение по некоторому распределению вероятностей на множестве детерминированных назначений. Для этого п-к-п матрицу вероятностей следует разложить на выпуклое сочетание из матрицы перестановок. Это можно сделать с помощью Алгоритм Биркгофа. Гарантируется найти комбинацию, в которой количество матриц перестановок не превосходит п²-2п+2.

Важным параметром для PS является скорость еды каждого агента. В простейшем случае, когда все агенты имеют одинаковые права доступа, имеет смысл разрешить всем агентам постоянно есть с одинаковой скоростью. Однако, когда агенты имеют разные права, можно дать более привилегированным агентам более высокую скорость приема пищи. Более того, можно позволить изменять скорость приема пищи со временем.

Пример

Есть четыре агента и четыре предмета (обозначены w, x, y, z). Предпочтения агентов:

Алиса и Боб предпочитают w вместо x вместо y вместо z.
Чана и Дана предпочитают x вместо w, а не z вместо y.

Агенты имеют равные права, поэтому мы применяем PS с одинаковой и равномерной скоростью поедания 1 единица в минуту.

Сначала Алиса и Боб идут к w, а Чана и Дана идут к x. Каждая пара ест свой предмет одновременно. По истечении 1/2 минуты у Алисы и Боба по 1/2 w, а у Чаны и Даны по 1/2 x.

Затем Алиса и Боб переходят к y (их любимый оставшийся элемент), а Чана и Дана переходят к z (их любимый оставшийся элемент). Спустя 1/2 минуты у Алисы и Боба по 1/2 y, а у Чаны и Даны по 1/2 z.

Матрица вероятностей теперь:

Алиса: 1/2 0 1/2 0
Боб: 1/2 0 1/2 0
Хана: 0 1/2 0 1/2
Дана: 0 1/2 0 1/2

В зависимости от количества съеденных дробей элемент w с равной вероятностью передается либо Алисе, либо Бобу, и то же самое происходит с элементом y; элемент x с равной вероятностью передается либо Чане, либо Дане, и то же самое происходит с элементом z. Если требуется выдать ровно 1 элемент на агента, тогда матрица вероятностей раскладывается на следующие две матрицы назначений:

1 0 0 0 ||| 0 0 1 0
0 0 1 0 ||| 1 0 0 0
0 1 0 0 ||| 0 0 0 1
0 0 0 1 ||| 0 1 0 0

Одно из этих назначений выбирается случайным образом с вероятностью 1/2.

Характеристики

Справедливость

PS удовлетворяет свойству справедливости, называемому стохастическая доминанта зависть (sd-envy-free). Неформально это означает, что каждый агент, рассматривая результирующую матрицу вероятностей, слабо предпочитает свою строку вероятностей строке любого другого агента. Формально на каждые два агента я и j:

Агент я имеет слабо-большую вероятность получить свой лучший предмет подряд я чем в ряду j;
Агент я имеет немного более высокую вероятность получить один из двух своих лучших предметов подряд я чем в ряду j;
...
Для любого k ≥ 1, агент я имеет слабо-большую вероятность получить один из своих k лучшие предметы подряд я чем в ряду j.

Обратите внимание, что sd-envy-freeness - это ex-ante понятие справедливости: это справедливо только до проведения лотереи. Алгоритм конечно не Постфактум честно: после розыгрыша лотереи незадачливые агенты могут позавидовать счастливчикам. Но это неизбежно при выделении неделимых объектов.

Эффективность

PS удовлетворяет свойству эффективности, называемому стохастическая доминанта Парето эффективность (SD-эффективность, также называемая порядковой эффективностью). Неформально это означает, что с учетом итоговой матрицы вероятностей не существует другой матрицы, которую предпочли бы все агенты слабо-SD-и, по крайней мере, один агент-строго-SD.

Здесь понятие ex-ante эффективности sd сильнее, чем понятие ex post: sd -fficiency подразумевает, что каждое распределение, выбранное лотереей, является sd-Pareto-эффективным.

Стратегия

PS это не правдивый механизм: агент, который знает, что его наиболее предпочтительный предмет не нужен ни одному другому агенту, может манипулировать алгоритмом, съев свой второй наиболее предпочтительный предмет, зная, что его лучший предмет останется нетронутым.

Улучшения

Как объяснялось выше, распределение, определяемое PS, справедливо только заранее, но не постфактум. Более того, когда каждый агент может получить любое количество предметов, несправедливость по факту может быть сколь угодно плохой: возможно, что один агент получит все предметы, а другие агенты не получат ни одного.

В Алгоритм PS-лотереи является усовершенствованием PS, в котором лотерея проводится только среди детерминированных распределений без зависти, за исключением одного элемента (EF1). Это гарантирует, что распределение по факту "не слишком несправедливо". Более того, гарантия EF1 сохраняется для любых основных полезностей, согласующихся с порядковым ранжированием, то есть это EF1 со стохастическим доминированием (sd-EF1).^[2]

Алгоритм использует в качестве подпрограмм как алгоритм PS, так и Алгоритм Биркгофа.

Смотрите также

Случайный приоритет - альтернативный механизм с другими свойствами.