Пусть {а 1, ...., ак] будет выборочным пространством X, а ..., ...., bj} будет выборочным пространством Y в XY совместном ансамбле с распределением вероятностей PXy bj). Например, х можно интерпретировать как вход дискретного канала с шумом, а у как его выход. Мы хотим количественно измерить, как много говорит нам о возможности появления некоторого возможного исхода, скажем ak из ансамбля X, появление некоторого возможного исхода, скажем bj, из ансамбля Y. На вероятностном языке, появление y = bj изменяет вероятность х — ak от априорной вероятности Рх (аи) до апостериорной вероятности Px\y (оk | bj). Количественной мерой этого изменения (которая оказывается полезной) является логарифм отношения апостериорной вероятности к априорной. Это приводит нас к следующему фундаментальному определению: информация о событии х = ak, содержащаяся в событии у = bj, равна
Ix;y(ah-,bj)=, log^if^. (2.2.1)
РХ (°h)
Основание логарифма в этом определении определяет шкалу, по которой измеряется информация. Наиболее часто употребляются основания 2 и е. При основании логарифмов 2 значение выражения (2.2.1) называется числом бит (двоичных единиц) информации, а при натуральных логарифмах значение выражения (2.2.1) называется числом нат (натуральных единиц) информации. Таким образом, число нат равно числу бит, умноженному на In 2 « 0,693. Так как большинство положений теории и результатов остаются справедливыми при любом основании логарифмов, то основание будет указываться только в случае необходимости.
Если в равенстве (2.2.1) поменять местами х и у, то получаем, что информация о событии у = bj, содержащаяся в событии х — ak, равна
Гу-Mbfi^l ogPyf^\ak). (2.2.2)
Покажем теперь, используя определение условных вероятностей, что правые части равенств (2.2.1) и (2.2.2) совпадают. Из-за этой симмет- 32
рии Iх\ y [dh\ bj) называется взаимной информацией между событиями х = ah и у = by.
/г. X fe а,) - log - log ^ = , <„; ад. (2.2.3)
Px(ak)PY(bl) PX(ak)
Если не будет возникать недоразумений, мы будем пользоваться сокращенным обозначением для информации.о событии х, содержащейся в некотором событии у.
I(x-y) = log-^L. (2.2.4)
Полное оправдание определения информации равенством (2.2.1) станет ясным только в ходе развития теории. Однако следующий пример может дать некоторое интуитивное понимание этого определения.
Пример 2.1. Канал, изображенный на рис. 2.2.1, называется двоичным симметричным каналом. С вероятностью 1 — s выходная буква совпадает с входной, и с вероятностью е она отлична от входной буквы.
В предположении, что входы являются равновероятными Рх (%) = = Рх (а2) = совместные вероятности задаются равенствами
Pxy (ах, &х) PXY (а2) Ь2) = ,
Рxy (аъ b2) = Pxy (а2, Ьх) ■=
Замечая из этих равенств, что выходные буквы равновероятны, получаем
Рх\y (fli | h) = Рх | у (а2 \Ьа) = 1 — е,
Рх | у (flx | b2) = PX]Y{a2\b1) = e. (2.2.5)
Взаимная информация тогда равна
/*: Y К; К) = Ix- Y (а2; ь2) = log (2(1 -8)), (2.2.6)
Ix- Y (ах; h) = Ix-, Y (fl2; ьг) = log (2e).