이 글은 정보 이론 ( 정보 의 전송, 처리 및 저장을 연구하는 수학 분야)이 측정 이론 (통합 및 확률 과 관련된 수학 분야)의 연관성을 보여주는 문서이다.
정보 이론의 많은 개념은 연속 사례와 이산 사례에 대해 별도의 정의와 공식을 가진다. 예를 들어 엔트로피
H
(
X
)
{\displaystyle \mathrm {H} (X)}
일반적으로 이산 확률 변수에 대해 정의되는 반면, 연속 확률 변수에 대해서는 미분 엔트로피 관련 개념이 작성되어
h
(
X
)
{\displaystyle h(X)}
가 사용된다(Cover and Thomas, 2006, 8장 참조). 이 두 개념은 모두 수학적 기대값 이지만 기대값은 연속적인 경우에는 적분 으로 이산적인 경우에는 합으로 정의된다.
이러한 별도의 정의는 측정 이론 측면에서 더 밀접하게 관련될 수 있다. 이산확률변수의 경우 확률 질량 함수는 계수 측도와 관련하여 밀도 함수로 간주될 수 있다. 적분과 합을 모두 척도 공간의 적분으로 생각하면 통일된 처리가 가능하다.
연속 확률 변수 의 미분 엔트로피에 대한 공식 :
X
{\displaystyle X}
범위 포함
R
{\displaystyle \mathbb {R} }
확률 밀도 함수
f
(
x
)
{\displaystyle f(x)}
:
h
(
X
)
=
−
∫
R
f
(
x
)
log
f
(
x
)
d
x
.
{\displaystyle h(X)=-\int _{\mathbb {R} }f(x)\log f(x)\,dx.}
이는 일반적으로 다음과 같은 Riemann-Stiltjes 적분으로 해석될 수 있다.
h
(
X
)
=
−
∫
R
f
(
x
)
log
f
(
x
)
d
μ
(
x
)
,
{\displaystyle h(X)=-\int _{\mathbb {R} }f(x)\log f(x)\,d\mu (x),}
이는
μ
{\displaystyle \mu }
르베그 측정값 이다.
그렇다면,
X
{\displaystyle X}
이산적이며 범위가 있음으로 정의되고
Ω
{\displaystyle \Omega }
유한 집합,
f
{\displaystyle f}
에 대한 확률 질량 함수인 것을 알수 있다. 그러면
Ω
{\displaystyle \Omega }
, 그리고
ν
{\displaystyle \nu }
에 대한 계산 조치 로서 우리는
Ω
{\displaystyle \Omega }
를 쓸 수 있다.
H
(
X
)
=
−
∑
x
∈
Ω
f
(
x
)
log
f
(
x
)
=
−
∫
Ω
f
(
x
)
log
f
(
x
)
d
ν
(
x
)
.
{\displaystyle \mathrm {H} (X)=-\sum _{x\in \Omega }f(x)\log f(x)=-\int _{\Omega }f(x)\log f(x)\,d\nu (x).}
적분 표현과 일반적인 개념은 연속적인 경우에 동일하다. 여기서 유일한 차이점은 사용된 측정값이다. 두 경우 모두 확률 밀도 함수
f
{\displaystyle f}
적분을 취하는 측정값에 대한 확률 측정 값의 라돈-니코딤 파생값 이다.
P
{\displaystyle P}
에 의해 유도된 확률 측정값은 다음과 같다.
X
{\displaystyle X}
, 그러면 적분은 다음과 관련하여 직접 취해질 수도 있다.
P
{\displaystyle P}
:
h
(
X
)
=
−
∫
Ω
log
d
P
d
μ
d
P
,
{\displaystyle h(X)=-\int _{\Omega }\log {\frac {\mathrm {d} P}{\mathrm {d} \mu }}\,dP,}
기본 측정값 μ 대신에 다른 확률 측정값
Q
{\displaystyle Q}
을 사용하면, Kullback-Leibler 발산 으로 이어진다. 그렇게 되면
P
{\displaystyle P}
그리고
Q
{\displaystyle Q}
의 동일한 공간에 대한 확률 측정값이 된다. 그렇다면
P
{\displaystyle P}
에 대해 절대적으로 연속적 이며
Q
{\displaystyle Q}
,
P
≪
Q
,
{\displaystyle P\ll Q,}
라돈-니코딤 유도체
d
P
d
Q
{\displaystyle {\frac {\mathrm {d} P}{\mathrm {d} Q}}}
가 존재하며 Kullback-Leibler 발산은 완전한 일반성으로 표현될 수 있다.
D
KL
(
P
‖
Q
)
=
∫
supp
P
d
P
d
Q
log
d
P
d
Q
d
Q
=
∫
supp
P
log
d
P
d
Q
d
P
,
{\displaystyle D_{\operatorname {KL} }(P\|Q)=\int _{\operatorname {supp} P}{\frac {\mathrm {d} P}{\mathrm {d} Q}}\log {\frac {\mathrm {d} P}{\mathrm {d} Q}}\,dQ=\int _{\operatorname {supp} P}\log {\frac {\mathrm {d} P}{\mathrm {d} Q}}\,dP,}
여기서 적분은 다음
P
.
{\displaystyle P.}
의 지원 을 초과한다. 음수 부호삭제 : Kullback–Leibler 발산은 Gibbs 부등식으로 인해 항상 음수가 아니다.
상관 변수 X 및 Y 와 관련된 다양한 정보 측정값에 대한 벤 다이어그램입니다 . 두 원에 포함된 면적은 결합 엔트로피 H ( X , Y )이다. 왼쪽 원(빨간색과 청록색)은 개별 엔트로피 H ( X )이고, 빨간색은 조건부 엔트로피 H ( X | Y )이다. 오른쪽 원(파란색과 청록색)은 H ( Y )이고 파란색은 H ( Y | X )이다. 청록색은 상호 정보 I ( X ; Y )이다.
세 변수 x , y 및 z 에 대한 정보 이론적 측정의 벤 다이어그램 . 각 원은 개별 엔트로피를 나타낸다. H ( x )는 왼쪽 아래 원, H ( y )는 오른쪽 아래 원, H ( z )는 위쪽 원이다. 임의의 두 원의 교차점은 연관된 두 변수에 대한 상호 정보를 나타낸다(예: I ( x ; z )는 노란색과 회색입니다). 임의의 두 원의 합집합은 연관된 두 변수의 결합 엔트로피 이다(예: H ( x , y )는 녹색을 제외한 모든 것입니다). 세 변수 모두의 결합 엔트로피 H ( x , y , z )는 세 원 모두의 합집합이다. 조건부 엔트로피 인 H ( x | y , z ), H ( y | x , z ), H ( z | x , y ), 노란색, 자홍색 및 청록색의 7개 조각으로 분할된다. 는 각각 조건부 상호 정보 I ( x ; z | y ), I ( y ; z | x ) 및 I ( x ; y | z )이고, 회색은 다변량 상호 정보 I ( x ; y ; z )이다. 다변량 상호 정보는 부정적일 수 있는 유일한 정보이다.
무작위 변수의 정보 내용에 대한 Shannon 의 기본 " 측정값 "과 집합에 대한 측정 값 사이에는 유사점이 있다. 즉, 결합 엔트로피, 조건부 엔트로피, 상호 정보는 각각 집합 합집합 , 차이 집합 , 교차 집합의 척도로 간주될 수 있다(Reza pp. 106~108).
추상 집합 의 존재를 연관시키면
X
~
{\displaystyle {\tilde {X}}}
그리고
Y
~
{\displaystyle {\tilde {Y}}}
임의의 이산 확률 변수 X 및 Y 에 대해 다음과 같이 각각 X 및 Y 가 전달하는 정보를 나타낸다.
μ
(
X
~
∩
Y
~
)
=
0
{\displaystyle \mu ({\tilde {X}}\cap {\tilde {Y}})=0}
X 와 Y가 무조건 독립 일 때마다
X
~
=
Y
~
{\displaystyle {\tilde {X}}={\tilde {Y}}}
X 와 Y 중 하나가 다른 하나에 의해 완전히 결정되는 경우(즉, 전단사에 의해);
여기
μ
{\displaystyle \mu }
는 이 세트에 대한 서명된 측정값 이며 다음을 설정한다.
H
(
X
)
=
μ
(
X
~
)
,
H
(
Y
)
=
μ
(
Y
~
)
,
H
(
X
,
Y
)
=
μ
(
X
~
∪
Y
~
)
,
H
(
X
∣
Y
)
=
μ
(
X
~
∖
Y
~
)
,
I
(
X
;
Y
)
=
μ
(
X
~
∩
Y
~
)
;
{\displaystyle {\begin{aligned}\mathrm {H} (X)&=\mu ({\tilde {X}}),\\\mathrm {H} (Y)&=\mu ({\tilde {Y}}),\\\mathrm {H} (X,Y)&=\mu ({\tilde {X}}\cup {\tilde {Y}}),\\\mathrm {H} (X\mid Y)&=\mu ({\tilde {X}}\setminus {\tilde {Y}}),\\\operatorname {I} (X;Y)&=\mu ({\tilde {X}}\cap {\tilde {Y}});\end{aligned}}}
우리는 정보 내용에 대한 Shannon 의 "측정"이 일반적으로 정보 다이어그램 에 설명된 것처럼 집합에 대한 공식 서명 측정 의 모든 가정과 기본 속성을 만족한다는 것을 발견했다. 이를 통해 두 측정값의 합계를 작성할 수 있다.
μ
(
A
)
+
μ
(
B
)
=
μ
(
A
∪
B
)
+
μ
(
A
∩
B
)
{\displaystyle \mu (A)+\mu (B)=\mu (A\cup B)+\mu (A\cap B)}
그리고 베이즈 정리( Bayes' theorem) 의 유사체(
μ
(
A
)
+
μ
(
B
∖
A
)
=
μ
(
B
)
+
μ
(
A
∖
B
)
{\displaystyle \mu (A)+\mu (B\setminus A)=\mu (B)+\mu (A\setminus B)}
)를 사용하면 두 측정값의 차이를 다음과 같이 작성할 수 있다.
μ
(
A
)
−
μ
(
B
)
=
μ
(
A
∖
B
)
−
μ
(
B
∖
A
)
{\displaystyle \mu (A)-\mu (B)=\mu (A\setminus B)-\mu (B\setminus A)}
이는 편리한 니모닉 장치가 될 수 있다.
H
(
X
,
Y
)
=
H
(
X
)
+
H
(
Y
∣
X
)
μ
(
X
~
∪
Y
~
)
=
μ
(
X
~
)
+
μ
(
Y
~
∖
X
~
)
I
(
X
;
Y
)
=
H
(
X
)
−
H
(
X
∣
Y
)
μ
(
X
~
∩
Y
~
)
=
μ
(
X
~
)
−
μ
(
X
~
∖
Y
~
)
{\displaystyle {\begin{aligned}\mathrm {H} (X,Y)&=\mathrm {H} (X)+\mathrm {H} (Y\mid X)&\mu ({\tilde {X}}\cup {\tilde {Y}})&=\mu ({\tilde {X}})+\mu ({\tilde {Y}}\setminus {\tilde {X}})\\\operatorname {I} (X;Y)&=\mathrm {H} (X)-\mathrm {H} (X\mid Y)&\mu ({\tilde {X}}\cap {\tilde {Y}})&=\mu ({\tilde {X}})-\mu ({\tilde {X}}\setminus {\tilde {Y}})\end{aligned}}}
여기서 실제 확률의 측정값(로그의 기대값)을 "엔트로피"라고 하며 일반적으로 문자 H 로 표시하는 반면, 다른 측정값은 종종 "정보" 또는 "상관"이라고 하며 일반적으로 문자 I 로 표시한다. 표기의 단순화를 위해 때때로 모든 측정값에 문자 I가 사용되기도 한다.
세 개 이상의 임의의 확률 변수와 관련된 집합에 의해 생성된 σ-대수를 처리하려면 Shannon의 기본 정보 측정 정의에 대한 특정 확장이 필요하다. (레자 페이지 참조 바람, 또한 비공식적이지만 완전한 토론을 위해서는 106–108을 참조하길 바람) 즉
H
(
X
,
Y
,
Z
,
⋯
)
{\displaystyle \mathrm {H} (X,Y,Z,\cdots )}
결합 분포의 엔트로피와 다변량 상호 정보 로 명확한 방식으로 정의해야 한다. 그렇다면
I
(
X
;
Y
;
Z
;
⋯
)
{\displaystyle \operatorname {I} (X;Y;Z;\cdots )}
는 다음을 설정할 수 있도록 적절한 방식으로 정의된다.
H
(
X
,
Y
,
Z
,
⋯
)
=
μ
(
X
~
∪
Y
~
∪
Z
~
∪
⋯
)
,
I
(
X
;
Y
;
Z
;
⋯
)
=
μ
(
X
~
∩
Y
~
∩
Z
~
∩
⋯
)
;
{\displaystyle {\begin{aligned}\mathrm {H} (X,Y,Z,\cdots )&=\mu ({\tilde {X}}\cup {\tilde {Y}}\cup {\tilde {Z}}\cup \cdots ),\\\operatorname {I} (X;Y;Z;\cdots )&=\mu ({\tilde {X}}\cap {\tilde {Y}}\cap {\tilde {Z}}\cap \cdots );\end{aligned}}}
전체 σ-대수에 대한 (부호화된) 측정값을 정의하기 위해. 다변량 상호 정보에 대해 보편적으로 받아들여지는 단일 정의는 없지만 여기에서 집합 교차의 척도에 해당하는 정의는 Fano(1966: p. 57-59)에 의한 것이다. 여기서 정의는 재귀적이며, 기본 사례로 단일 확률 변수의 상호 정보는 엔트로피로 정의된다.
I
(
X
)
=
H
(
X
)
{\displaystyle \operatorname {I} (X)=\mathrm {H} (X)}
. 그럼 우리는
n
≥
2
{\displaystyle n\geq 2}
설정할 수 있다.
I
(
X
1
;
⋯
;
X
n
)
=
I
(
X
1
;
⋯
;
X
n
−
1
)
−
I
(
X
1
;
⋯
;
X
n
−
1
∣
X
n
)
,
{\displaystyle \operatorname {I} (X_{1};\cdots ;X_{n})=\operatorname {I} (X_{1};\cdots ;X_{n-1})-\operatorname {I} (X_{1};\cdots ;X_{n-1}\mid X_{n}),}
여기서 조건부 상호 정보는 다음과 같이 정의된다.
I
(
X
1
;
⋯
;
X
n
−
1
∣
X
n
)
=
E
X
n
(
I
(
X
1
;
⋯
;
X
n
−
1
)
∣
X
n
)
.
{\displaystyle \operatorname {I} (X_{1};\cdots ;X_{n-1}\mid X_{n})=\mathbb {E} _{X_{n}}{\big (}\operatorname {I} (X_{1};\cdots ;X_{n-1})\mid X_{n}{\big )}.}
재귀의 첫 번째 단계는 Shannon의 정의를 산출한다.
I
(
X
1
;
X
2
)
=
H
(
X
1
)
−
H
(
X
1
∣
X
2
)
.
{\displaystyle \operatorname {I} (X_{1};X_{2})=\mathrm {H} (X_{1})-\mathrm {H} (X_{1}\mid X_{2}).}
3개 이상의 무작위 변수에 대한 다변량 상호 정보( 상호작용 정보 와 동일하지만 부호 변경에 대한)는 음수일 수도 있고 양수일 수도 있다.그 후 X 와 Y를 두 개의 독립적인 공정한 동전 던지기라고 하고 Z 를 배타적 논리합 으로 둔다.
I
(
X
;
Y
;
Z
)
=
−
1
{\displaystyle \operatorname {I} (X;Y;Z)=-1}
이렇게 되면 세 개 이상의 확률 변수에 대해 다른 많은 변형이 가능하다. 예를 들어,
I
(
X
,
Y
;
Z
)
{\displaystyle \operatorname {I} (X,Y;Z)}
는 Z 에 대한 X 와 Y 의 공동 분포에 대한 상호 정보이며 다음과 같이 해석될 수 있다. 실제로,
μ
(
(
X
~
∪
Y
~
)
∩
Z
~
)
.
{\displaystyle \mu (({\tilde {X}}\cup {\tilde {Y}})\cap {\tilde {Z}}).}
이런 식으로 더 많은 복잡한 표현을 만들 수 있으며 그 의미는 유지된다.
I
(
X
,
Y
;
Z
∣
W
)
,
{\displaystyle \operatorname {I} (X,Y;Z\mid W),}
또는
H
(
X
,
Z
∣
W
,
Y
)
.
{\displaystyle \mathrm {H} (X,Z\mid W,Y).}