Ремонт принтеров, сканнеров, факсов и остальной офисной техники


назад Оглавление вперед




[73]

Анализ хеширования с цепочками

В этом разделе мы оценим время работы операций для хеширования с цепочками.

Пусть Г - хеш-таблица с т позициями, в которую занесено га элементов. Коэффициентом заполнения (load factor) таблицы называется число а = п/т (это число может быть и меньше, и больше единицы). Мы будем оценивать стоимость операций в терминах а.

В худшем случае хеширование с цепочками ведет себя отвратительно: если хеш-значения всех га ключей совпадают, то таблица сводится к одному списку длины га, и на поиск будет тратиться то же время в (га), что и на поиск в списке, плюс ещё время на вычисление хеш-функции. Конечно, в такой ситуации хеширование бессмысленно.

Средняя стоимость поиска зависит от того, насколько равномерно хеш-функция распределяет хеш-значения по позициям таблицы. Вопросу о том, как добиваться этой равномерности, посвящен раздел 12.3; пока же будем условно предполагать, что каждый данный элемент может попасть в любую из тп позиций таблицы с равной вероятностью и независимо от того, куда попал другой элемент. Мы будем называть это предположение гипотезой «равномерного хеширования» (simple uniform hashing).

Будем считать, что для данного ключа к вычисление хеш-значения h(k), шаг по списку и сравнение ключей требует фиксированного времени, так что время поиска элемента с ключом к линейно зависит от количества элементов в списке T[h(k)], которые мы просматриваем в процессе поиска. Будем различать два случая: в первом случае поиск оканчивается неудачей (элемента с ключом к в списке нет), во втором поиск успешен - элемент с требуемым ключом обнаруживается.

Теорема 12.1. Пусть Т - хеш-таблица с цепочками, имеющая коэффициент заполнения а. Предположим, что хеширование равномерно. Тогда при поиске элемента, отсутствующего в таблице, будет просмотрено в среднем а элементов таблицы, а среднее время такого поиска (включая время на вычисление хеш-функции) будет равно 0(1 + а).

Доказательство. Поскольку в предположении равномерного хеширования все позиции таблицы для данного ключа равновероятны, среднее время поиска отсутствующего элемента совпадает со средним временем полного просмотра одного из т списков, то есть пропорционально средней длине наших т списков. Эта средняя длина есть п/т = а, откуда получаем первое утверждение теоремы; второе утверждение получится, если добавить время 0(1) на вычисление хеш-значения.□


Теорема 12.2. При равномерном хешировании среднее время успешного поиска в хеш-таблице с цепочками есть 0(1 + а), где а - коэффициент заполнения.

Доказательство. Хотя формулировка этой теоремы похожа на предыдущую, смысл утверждения несколько иной. В предыдущей теореме мы рассматривали произвольную таблицу с коэффициентом заполнения а и оценивали среднее число действий, необходимых для поиска случайного элемента, равновероятно попадающего во все ячейки таблицы.

В этой теореме так делать нельзя: если мы возьмём произвольную таблицу и, считая все её элементы равновероятными, будем искать среднее время поиска случайно выбранного из них, то оценки вида 0(1+ а) не получится (контрпример: таблица, в которой все элементы попали в один список)

Формулировка подразумевает двойное усреднение: сначала мы рассматриваем случайно выбранную последовательность элементов, добавляемых в таблицу, причём на каждом шаге все значения ключа равновероятны и шаги независимы, а затем в полученной таблице выбираем элемент для поиска, считая все её элементы равновероятными.

Посмотрим на ситуацию в тот момент, когда таблица уже построена, но случайный элемент для поиска ещё не выбран. Чему равно среднее время поиска, усреднённое по всем п элементам таблицы? Надо сложить позиции всех элементов в своих списках и поделить сумму на п (общее число элементов).

Если представить себе, что при заполнении таблицы элементы дописывались в конец соответствующих списков (см. упр. 12.2-3), то упомянутая сумма по порядку величины равна общему число операций, выполненных при заполнении таблицы (поскольку при добавлении в конец и при поиске выполняется одно и то же количество действий).

Теперь вспомним об усреднении по различным возможностям в процессе построения таблицы. При добавлении в неё г-го элемента математическое ожидание числа действий равно 0(1 + [г - 1)/т) (см. доказательство предыдущей теоремы), и потому математическое ожидание общего числа действий при заполнении таблицы, делённое на п, есть

e(±£(i + ))=e(i + J-Bi-i>) =

у п \ т ) Iу птI

\ пт 2 )

= e(1 + i-)=e<1 + 0-


Если количество позиций в хеш-таблице считать пропорциональным числу элементов в таблице, то из доказанных теорем вытекает, что среднее время на поиск (в оптимистических предположениях о распределении вероятностей) есть 0(1). В самом деле, если п = О (га), то а = п/т = 0(1) и 0(1 + а) = 0(1). Поскольку стоимость добавления в хеш-таблицу с цепочками есть 0(1) (даже при добавлении в конец, см. упр. 12.2-3), а стоимость удаления элемента есть 0(1) (мы считаем, что списки двусторонне связаны), среднее время выполнения любой словарной операции (в предположении равномерного хеширования) есть 0(1).

Упражнения

12.2-1 Пусть h - случайная хеш-функция, сопоставляющая с каждым из п различных ключей {к\, к2, , кп} одну из га позиций в таблице. Каково математическое ожидание числа коллизий (точнее, числа пардля которых что h(ki) = h(kj))?

12.2-2 Как будет выглядеть хеш-таблица с цепочками после того, как в неё последовательно поместили элементы с ключами 5,28,19,15,20,33,12,17,10 (в указанном порядке)? Число позиций в таблице равно 9, хеш-функция имеет вид h(k) = к mod 9.

12.2-3 Покажите, что математическое ожидание времени добавления нового элемента (в предположении равномерного хеширования) есть 0(1 + а), если мы добавляем новый элемент в конец соответствующей цепочки.

12.2-4 Профессор предполагает, что хеширование с цепочками будет гораздо эффективнее, если списки элементов с данным хеш-значением будут упорядоченными. Как этот подход повлияет на стоимость успешного поиска, поиска отсутствующего элемента, добавления, удаления?

12.2-5 Разработайте реализацию хеш-таблицы с цепочками, в которой записи хранятся внутри самой хеш-таблицы (неиспользуемые позиции связываются в список свободных мест). Считайте, что в каждой позиции могут храниться либо флаг и два указателя, либо флаг, указатель и элемент. Все словарные операции, а также операции по выделению и освобождению места, должны выполняться за время 0(1). Обязательно ли делать список свободных мест двусторонне связанным?

12.2-6 Пусть общее число возможных ключей (размер множества U) превосходит гага, где га - количество хеш-значений. Покажите,



[стр.Начало] [стр.1] [стр.2] [стр.3] [стр.4] [стр.5] [стр.6] [стр.7] [стр.8] [стр.9] [стр.10] [стр.11] [стр.12] [стр.13] [стр.14] [стр.15] [стр.16] [стр.17] [стр.18] [стр.19] [стр.20] [стр.21] [стр.22] [стр.23] [стр.24] [стр.25] [стр.26] [стр.27] [стр.28] [стр.29] [стр.30] [стр.31] [стр.32] [стр.33] [стр.34] [стр.35] [стр.36] [стр.37] [стр.38] [стр.39] [стр.40] [стр.41] [стр.42] [стр.43] [стр.44] [стр.45] [стр.46] [стр.47] [стр.48] [стр.49] [стр.50] [стр.51] [стр.52] [стр.53] [стр.54] [стр.55] [стр.56] [стр.57] [стр.58] [стр.59] [стр.60] [стр.61] [стр.62] [стр.63] [стр.64] [стр.65] [стр.66] [стр.67] [стр.68] [стр.69] [стр.70] [стр.71] [стр.72] [стр.73] [стр.74] [стр.75] [стр.76] [стр.77] [стр.78] [стр.79] [стр.80] [стр.81] [стр.82] [стр.83] [стр.84] [стр.85] [стр.86] [стр.87] [стр.88] [стр.89] [стр.90] [стр.91] [стр.92] [стр.93] [стр.94] [стр.95] [стр.96] [стр.97] [стр.98] [стр.99] [стр.100] [стр.101] [стр.102] [стр.103] [стр.104] [стр.105] [стр.106] [стр.107] [стр.108] [стр.109] [стр.110] [стр.111] [стр.112] [стр.113] [стр.114] [стр.115] [стр.116] [стр.117] [стр.118] [стр.119] [стр.120] [стр.121] [стр.122] [стр.123] [стр.124] [стр.125] [стр.126] [стр.127] [стр.128] [стр.129] [стр.130] [стр.131] [стр.132] [стр.133] [стр.134] [стр.135] [стр.136] [стр.137] [стр.138] [стр.139] [стр.140] [стр.141] [стр.142] [стр.143] [стр.144] [стр.145] [стр.146] [стр.147] [стр.148] [стр.149] [стр.150] [стр.151] [стр.152] [стр.153] [стр.154] [стр.155] [стр.156] [стр.157] [стр.158] [стр.159] [стр.160] [стр.161] [стр.162] [стр.163] [стр.164] [стр.165] [стр.166] [стр.167] [стр.168] [стр.169] [стр.170] [стр.171] [стр.172] [стр.173] [стр.174] [стр.175] [стр.176] [стр.177] [стр.178] [стр.179] [стр.180] [стр.181] [стр.182] [стр.183] [стр.184] [стр.185] [стр.186] [стр.187] [стр.188] [стр.189] [стр.190] [стр.191] [стр.192] [стр.193] [стр.194] [стр.195] [стр.196] [стр.197] [стр.198] [стр.199] [стр.200] [стр.201] [стр.202] [стр.203] [стр.204] [стр.205] [стр.206] [стр.207] [стр.208] [стр.209] [стр.210] [стр.211] [стр.212] [стр.213] [стр.214] [стр.215] [стр.216] [стр.217] [стр.218] [стр.219] [стр.220] [стр.221] [стр.222] [стр.223] [стр.224] [стр.225] [стр.226] [стр.227] [стр.228] [стр.229] [стр.230] [стр.231] [стр.232] [стр.233] [стр.234] [стр.235] [стр.236] [стр.237] [стр.238] [стр.239] [стр.240] [стр.241] [стр.242] [стр.243] [стр.244] [стр.245] [стр.246] [стр.247] [стр.248] [стр.249] [стр.250] [стр.251] [стр.252] [стр.253] [стр.254] [стр.255] [стр.256] [стр.257] [стр.258] [стр.259] [стр.260] [стр.261] [стр.262] [стр.263] [стр.264] [стр.265] [стр.266] [стр.267] [стр.268] [стр.269] [стр.270] [стр.271] [стр.272] [стр.273] [стр.274] [стр.275] [стр.276] [стр.277] [стр.278] [стр.279] [стр.280] [стр.281] [стр.282] [стр.283] [стр.284] [стр.285] [стр.286] [стр.287] [стр.288] [стр.289] [стр.290] [стр.291] [стр.292] [стр.293] [стр.294]