Символическое исполнение - Symbolic execution

В Информатика, символическая казнь (также символическая оценка или же симбекс) - это средство анализа программы, чтобы определить, какие входные данные вызывают выполнение каждой части программы. Интерпретатор следует программе, принимая символические значения для входных данных, а не получая фактические входные данные, как при нормальном выполнении программы. Таким образом, он приходит к выражениям в терминах этих символов для выражений и переменных в программе и к ограничениям в терминах этих символов для возможных результатов каждой условной ветви.

Поле символьное моделирование применяет ту же концепцию к оборудованию. Символическое вычисление применяет концепцию к анализу математических выражений.

Пример

Рассмотрим приведенную ниже программу, которая считывает значение и дает сбой, если на входе 6.

 1 int ж() { 2   ... 3   у = читать(); 4   z = у * 2; 5   если (z == 12) { 6     провал(); 7   } еще { 8     printf("OK"); 9   }10 }

Во время нормального выполнения («конкретное» выполнение) программа считывает конкретное входное значение (например, 5) и присваивает его y. Затем выполнение продолжится с умножением и условной ветвью, которая будет оценивать как ложь и печатать Ok.

Во время символьного выполнения программа считывает символьное значение (например, λ) и присваивает его y. Затем программа продолжит умножение и назначит λ * 2 к z. При достижении если заявление, он оценил бы λ * 2 == 12. На этом этапе программы λ может принимать любое значение, и поэтому символьное выполнение может продолжаться по обеим ветвям путем «разветвления» двух путей. Каждому пути назначается копия состояния программы в инструкции перехода, а также ограничение пути. В этом примере ограничение пути λ * 2 == 12 для тогда филиал и λ * 2! = 12 для еще ответвляться. Оба пути могут быть символически выполнены независимо. Когда пути заканчиваются (например, в результате выполнения провал() или просто выход), символьное выполнение вычисляет конкретное значение для λ путем решения накопленных ограничений пути для каждого пути. Эти конкретные значения можно рассматривать как конкретные тестовые примеры, которые могут, например, помочь разработчикам воспроизводить ошибки. В этом примере решатель ограничений определит, что для достижения провал() оператору, λ должно быть равно 6.

Ограничения

Путь взрыва

Символьное выполнение всех возможных программных путей не масштабируется до больших программ. Число возможных путей в программе растет экспоненциально с увеличением размера программы и даже может быть бесконечным в случае программ с неограниченными итерациями цикла.^[1] Решения путь взрыва проблема обычно использует либо эвристику для поиска пути, чтобы увеличить покрытие кода,^[2] сократить время выполнения за счет распараллеливания независимых путей,^[3] или путем объединения похожих путей.^[4]

Программно-зависимая эффективность

Символьное выполнение используется для рассуждений о последовательном пути к программе, что является преимуществом по сравнению с рассуждениями о программном вводе-вводе, как в других парадигмах тестирования (например, Динамический анализ программы ). Однако, если несколько входов проходят один и тот же путь через программу, будет небольшая экономия при тестировании каждого из входов по отдельности.

Псевдонимы памяти

Символьное выполнение сложнее, когда к одной и той же области памяти можно получить доступ через разные имена (сглаживание ). Псевдонимы не всегда можно распознать статически, поэтому механизм символьного выполнения не может распознать, что изменение значения одной переменной также меняет другую.^[5]

Массивы

Поскольку массив представляет собой набор из множества различных значений, символьные исполнители должны либо рассматривать весь массив как одно значение, либо обрабатывать каждый элемент массива как отдельное местоположение. Проблема с обработкой каждого элемента массива по отдельности заключается в том, что ссылка, такая как «A [i]», может быть указана только динамически, когда значение для i имеет конкретное значение.^[5]

Взаимодействие с окружающей средой

Программы взаимодействуют со своей средой, выполняя системные вызовы, получая сигналы и т. Д. Проблемы согласованности могут возникать, когда выполнение достигает компонентов, которые не находятся под контролем инструмента символьного выполнения (например, ядра или библиотек). Рассмотрим следующий пример:

 1 int главный() 2 { 3   ФАЙЛ *fp = fopen("doc.txt"); 4   ... 5   если (условие) { 6     fputs("некоторые данные", fp); 7   } еще { 8     fputs("некоторые другие данные", fp); 9   }10   ...11   данные = fgets(..., fp);12 }

Эта программа открывает файл и, в зависимости от условий, записывает в него данные другого типа. Затем он позже считывает записанные данные. Теоретически при символьном выполнении будут развиваться два пути в строке 5, и каждый путь оттуда будет иметь свою собственную копию файла. Таким образом, оператор в строке 11 будет возвращать данные, которые согласуются со значением «condition» в строке 5. На практике файловые операции реализованы как системные вызовы в ядре и находятся вне контроля инструмента символьного выполнения. Основные подходы к решению этой проблемы:

Выполнение обращений к среде напрямую. Преимущество такого подхода в том, что его легко реализовать. Недостатком является то, что побочные эффекты таких вызовов разрушают все состояния, управляемые механизмом символьного выполнения. В приведенном выше примере инструкция в строке 11 вернет «некоторые другие данные» или «некоторые другие данные» в зависимости от последовательного порядка состояний.

Моделирование окружающей среды. В этом случае движок инструментирует системные вызовы с помощью модели, моделирующей их эффекты и сохраняющей все побочные эффекты в хранилище для каждого состояния. Преимущество состоит в том, что можно получить правильные результаты при символическом выполнении программ, взаимодействующих со средой. Недостатком является то, что необходимо реализовать и поддерживать множество потенциально сложных моделей системных вызовов. Такие инструменты, как KLEE,^[6] Cloud9 и Выдра^[7] воспользуйтесь этим подходом, реализовав модели для операций файловой системы, сокетов, IPC и т. д.

Разветвляется состояние всей системы. Инструменты символьного выполнения, основанные на виртуальных машинах, решают проблему среды, разветвляя все состояние виртуальной машины. Например, в S2E^[8] каждое состояние - это независимый снимок виртуальной машины, который может выполняться отдельно. Такой подход устраняет необходимость в написании и сопровождении сложных моделей и позволяет символьно выполнять практически любую двоичную программу. Однако у него более высокие накладные расходы на использование памяти (снимки виртуальной машины могут быть большими).

Инструменты

Инструмент	Цель	URL	Кто-нибудь может его использовать / Открытый исходный код / Загружаемый
сердитый	на основе libVEX (поддержка x86, x86-64, ARM, AARCH64, MIPS, MIPS64, PPC, PPC64 и Java)	http://angr.io/	да
BE-PUM	x86	https://github.com/NMHai/BE-PUM	да
BINSEC	x86-32 / ELF, с экспериментальным загрузчиком PE.	http://binsec.gforge.inria.fr/tools	да
Разоблачать	JavaScript	https://github.com/ExpoSEJS/ExpoSE	да
FuzzBALL	VineIL / Родной	http://bitblaze.cs.berkeley.edu/fuzzball.html	да
Джаланги2	JavaScript	https://github.com/Samsung/jalangi2	да
janala2	Ява	https://github.com/ksen007/janala2	да
JaVerT	JavaScript	https://www.doc.ic.ac.uk/~pg/publications/FragosoSantos2019JaVerT.pdf	да
JBSE	Ява	https://github.com/pietrobraione/jbse	да
jCUTE	Ява	https://github.com/osl/jcute	да
JPF	Ява	http://babelfish.arc.nasa.gov/trac/jpf	да
Ключ	Ява	http://www.key-project.org/	да
летающий змей	LLVM	http://www.cs.ubc.ca/labs/isd/Projects/Kite/	да
KLEE	LLVM	https://klee.github.io/	да
Кудзу	JavaScript	http://webblaze.cs.berkeley.edu/2010/kudzu/kudzu.pdf	нет
MPro	Виртуальная машина Ethereum (EVM) / Родные	https://sites.google.com/view/smartcontract-analysis/home	да
Мантикора	x86-64, ARMv7, Виртуальная машина Ethereum (EVM) / Родные	https://github.com/trailofbits/manticore/	да
Погром	Двоичный	http://forallsecure.com	нет
Мифрил-Классик	Виртуальная машина Ethereum (EVM) / Родные	https://github.com/ConsenSys/mythril-classic	да
Выдра	C	https://bitbucket.org/khooyp/otter/overview	да
Ойенте-НГ	Виртуальная машина Ethereum (EVM) / Родные	http://www.comp.ita.br/labsca/waiaf/papers/RafaelShigemura_paper_16.pdf	нет
Pathgrind^[9]	Родной 32-битный на основе Valgrind	https://github.com/codelion/pathgrind	да
Pex	.NET Framework	http://research.microsoft.com/en-us/projects/pex/	нет
пысымему	x86-64 / Собственный	https://github.com/feliam/pysymemu/	да
Розетка	Диалект Ракетка	https://emina.github.io/rosette/	да
Рубикс	Рубин	http://www.cs.umd.edu/~avik/papers/ssarorwa.pdf	нет
S2E	x86, x86-64, ARM / User и двоичные файлы режима ядра	http://s2e.systems/	да
Символьный Навигатор (SPF)	Байт-код Java	https://github.com/SymbolicPathFinder	да
SymDroid	Дальвик байт-код	http://www.cs.umd.edu/~jfoster/papers/symdroid.pdf	нет
SymJS	JavaScript	http://www.cs.utah.edu/~ligd/publications/SymJS-FSE14.pdf	нет
Тритон	x86 и x86-64	http://triton.quarkslab.com	да
Verifast	C, Java	https://people.cs.kuleuven.be/~bart.jacobs/verifast	да

Ранние версии инструментов

EXE^[10] это более ранняя версия KLEE. EXE бумагу можно найти здесь.

История

Концепция символического исполнения была введена академически с описаниями: системы Select,^[11]система EFFIGY,^[12]система DISSECT,^[13]и система Кларка.^[14]См Библиография опубликовано больше технических статей по символическому исполнению.

Смотрите также

внешняя ссылка

[1] Ананд, Сасват; Патрис Годфройд; Николай Тильманн (2008). «Композиционное символическое исполнение по требованию». Инструменты и алгоритмы построения и анализа систем. Конспект лекций по информатике. 4963. С. 367–381. Дои:10.1007/978-3-540-78800-3_28. ISBN 978-3-540-78799-0.

[2] Ма, Кин-Кенг; Кху Йит Панг; Джеффри С. Фостер; Майкл Хикс (2011). «Направленное символическое исполнение». Материалы 18-й Международной конференции по статистическому анализу. С. 95–111. ISBN 9783642237010. Получено 2013-04-03.

[3] Staats, Мэтт; Корина Пасаряну (2010). «Параллельное символьное выполнение для генерации структурных тестов». Материалы 19-го Международного симпозиума по тестированию и анализу программного обеспечения. С. 183–194. Дои:10.1145/1831708.1831732. ISBN 9781605588230. S2CID 9898522.

[4] Кузнецов, Владимир; Киндер, Йоханнес; Букур, Стефан; Кандея, Джордж (01.01.2012). «Эффективное слияние состояний в символьном исполнении». Материалы 33-й конференции ACM SIGPLAN по проектированию и реализации языков программирования. Нью-Йорк, Нью-Йорк, США: ACM. С. 193–204. CiteSeerX 10.1.1.348.823. Дои:10.1145/2254064.2254088. ISBN 978-1-4503-1205-9. S2CID 135107.

[DeMillo1991-5] а ^б ДеМилло, Рич; Оффатт, Джефф (1991-09-01). «Автоматическая генерация тестовых данных на основе ограничений». IEEE Transactions по разработке программного обеспечения. 17 (9): 900–910. Дои:10.1109/32.92910.

[6] Кадар, Кристиан; Данбар, Дэниел; Энглер, Доусон (01.01.2008). «KLEE: автоматическое создание тестов с высоким уровнем охвата для сложных системных программ». Труды 8-й конференции USENIX по разработке и внедрению операционных систем. OSDI'08: 209–224.

[7] Терпи, Джонатан; Рейснер, Эльнатан; Фостер, Джеффри; Хикс, Майкл. «MultiOtter: многопроцессорное символьное выполнение» (PDF).

[8] Чипунов, Виталий; Кузнецов, Владимир; Кандея, Джордж (2012-02-01). «Платформа S2E: дизайн, реализация и приложения». ACM Trans. Comput. Syst. 30 (1): 2:1–2:49. Дои:10.1145/2110356.2110358. ISSN 0734-2071. S2CID 16905399.

[9] Шарма, Асанкхая (2014). «Использование неопределенного поведения для эффективного символьного исполнения». ICSE Companion 2014: Материалы 36-й Международной конференции по разработке программного обеспечения. С. 727–729. Дои:10.1145/2591062.2594450. ISBN 9781450327688. S2CID 10092664.

[10] Кадар, Кристиан; Ганеш, Виджай; Павловский, Питер М .; Dill, David L .; Энглер, Доусон Р. (2008). «EXE: автоматическое создание входных данных о смерти». ACM Trans. Инф. Syst. Secur. 12: 10:1–10:38. Дои:10.1145/1455518.1455522. S2CID 10905673.

[11] Роберт С. Бойер, Бернард Элспас и Карл Н. Левитт SELECT - формальная система для тестирования и отладки программ посредством символического исполнения, Труды Международной конференции по надежному программному обеспечению, 1975, стр. 234-245, Лос-Анджелес, Калифорния

[12] Джеймс К. Кинг, Символическое исполнение и тестирование программ, Коммуникации ACM, том 19, номер 7, 1976, 385-394

[13] Уильям Э. Хауден, Эксперименты с системой символической оценки, Труды, Национальная компьютерная конференция, 1976.

[14] Лори А. Кларк, Система тестирования программ, ACM 76: Proceedings of the Annual Conference, 1976, стр. 488-491, Хьюстон, Техас, США.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]