Как IDA дизассемблирует программы

Чтобы понять, для чего именно предназначена моя библиотека, Вы должны очень хорошо представлять себе, как же IDA работает. Так что запаситесь терпением, пивом, поставьте что-нть приятное слуху (от себя могу порекомендовать Marylin Manson, Nine Inch Nails, Pearl Jam или Alice in Chains) - глава будет долгой...

Я встречал много людей, которые на полном серьёзе утверждали, что создание дизассемблера - тривиальное занятие. Хм, однако почему в таком случае так мало хороших дизассемблеров ? Дело в том, что под понятием "хороший дизассемблер" мы подразумеваем не только программу, генерирующую на выходе текстовый файл с ассемблерными инструкциями. Хороший ассемблер должен заниматься так же и анализом кода - чтобы отличить код от данных, распознать использование локальных переменных, начало и конец функций и ещё множество вещей, за которые мы любим IDA Pro. А как же IDA Pro может делать всё вышеперечисленное ? Весь секрет заключается в том, что в ней используется не просто дизассемблер - а ещё и эмулирующий анализатор.

Чтобы заставить IDA Pro понимать ещё один процессор (скажем, HP-PA), Вы должны написать dissassembler module - для краткости в дальнейшем будем называть его просто module. В IDA SDK есть пример такого модуля (для процессора 8051). Рассмотрим, из каких функций состоит module. Module представляет собой .DLL (для Win32), экспортирующую под именем LPH всего одну структуру processor_t. Структура эта достаточно велика - ведь она должна полностью описывать ассемблер некоторого процессора - но нас в этой структуре нас интересует всего несколько членов:

int (*u_ana) (void)

Указатель на функцию, анализирующую одну инструкцию, в результате анализа заполняется глобальная переменная cmd - структура insn_t. Адрес инструкции задаётся в поле cmd.ea. Функция возвращает длину декодированной инструкции, или 0, если инструкция не распознана.

На самом деле мы не можем вызвать эту функцию непосредственно - мы можем вызвать для анализа только следующие функции:

ida_export int ua_code(ea_t ea)

Высокоуровневая функция, анализирует байты по адресу ea, и преобразует их в код.

ida_export int ua_ana(ea_t ea)

Анализирует байты байты по адресу ea, преобразует их в код, а также производит некоторые сопутствующие действия (например, применение fixups, увеличение сегментов и т.д.)

ida_export int ua_ana0(ea_t ea)

Наша рабочая лошадка - просто анализирует байты по адресу ea, заполняя структуру cmd, при этом загруженная база данных не изменяется.

ea_t

ulong

int (*u_emu) (void)

Указатель на функцию, эмулирующую выполнение инструкции. Несмотря на отсутствие аргументов, эта функция имеет доступ к ранее заполненной в результате анализа структуре cmd для эмулируемой инструкции. Именно наличием эмулятора (а также наличием встроенной в IDA виртуальной регистровой машины) и объясняются её выдающиеся способности - инструкции не просто дизассемблируются, но и частично эмулируются, что позволяет производить более глубокий анализ кода. Эта функция отвечает за создание кросс-ссылок, за включение в зону анализа ветвей исполнения (для инструкций переходов и вызова функций) и множество других вещей...

Функции генерации текстового представления (то, что мы видим на экране):

void (*u_out) (void)

Генерирует текстовое представление инструкции по ранее заполненной структуре cmd.

int (*u_outop) (op_t &op)

Генерирует текстовое представление операнда op_t инструкции. Возвращает 1 в случае успеха, и 0, если операнд скрыт.

u_line

instruc_t *instruc

Массив описаний инструкций (см. подробности ниже).

instruc_t

const char near *name

Строка - имя инструкции

ushort feature

Характеристики инструкции. Битовая маска, могущая состоять из следующих значений:

CF_STOP

Инструкция не передаёт исполнение следующей инструкции (например, hlt)

CF_CALL

Вызов процедуры.

CF_CHG1

Инструкция модифицирует свой первый операнд.

CF_CHG2

Инструкция модифицирует свой второй операнд.

CF_CHG3

Инструкция модифицирует свой третий операнд.

CF_USE1

Инструкция использует значение своего первого операнда.

CF_USE2

Инструкция использует значение своего второго операнда.

CF_USE3

Инструкция использует значение своего третьего операнда.

CF_JUMP

Инструкция передаёт управление.

CF_SHFT

Инструкция производит побитовый сдвиг.

CF_HLL

Инструкция может быть описана на языке высокого уровня (я не знаю, что конкретно имелось в виду за столь витиеватой формулировкой)

insn_t

ushort itype

Внутренний код инструкции. Значения кодов определены в каждом процессорном модуле по-разному для каждого процессора (я также сильно подозреваю, что их значения изменяются от версии к версии). Также является индексом в ранее описанном массиве инструкций instruc_t *instruc.

ea_t ea

Линейный адрес инструкции.

ushort size

Размер инструкции в байтах.

op_t Operands[3]

Операнды инструкции. Почему операндов именно три ? См., например, x86 инструкцию shld или shrd

op_t

char n

Номер операнда - 0,1 или 2.

optype_t type

Тип операнда. Этот член определяет, какие прочие члены структуры имеют значение, и как оно интерпретируется. Насколько я понял, процессорозависим. Более детальное описание см. ниже.

char offb

Смещение значения операнда от начала инструкции. Имеет смысл не для всех типов операндов.

char offo

Такой же, как и предыдущий член, для операндов из из двух численных значений указывает на смещение второго из них.

uchar flags

Некоторые характеристики операндов. Объяснение см. ниже.

char dtyp

Тип значения операнда. Наиболее распространённые типы значений:

dt_byte 0 // 8 бит dt_word 1 // 16 бит dt_dword 2 // 32 бит dt_float 3 // 4 байта dt_double 4 // 8 байт dt_qword 7 // 64 бит

Все нижеописанные члены структуры op_t хранят информацию о значении операнда (и их использование зависит от значений type & flags):