-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathNotes
55 lines (37 loc) · 1.24 KB
/
Notes
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
entropie d'un texte
hypothèse: chaque lettre est équiprobable
une lettre a une entropie de log2(N)
N=nombre de lettres possibles (ex: alphabet 26)
caractères ASCII imprimables:
⁃ 26 lettres minuscules
⁃ 26 lettres majuscules
⁃ 10 chiffres
⁃ 32 symboles
⁃ une espace sans représentation affichable ou affiché sans représentation.
95 caractères possibles
log2(95)=6.56985560833094784171
travail 1: calculer la probabilité de chaque lettre dans un corpus
map reduce
travail 2: calculer l'entropie d'un texte où "il n'y a pas de mot",
c'est à dire que chaque lettre a un poid comme trouvé précédemment
mais où les lettres ne forment pas de mot
pour chaque lettre ayant une probabilité Pi
H = -Sum [i=1 à n] { Pi*log2(Pi) }
travail 3: calculer la probabilité pour les mots
probabilité conditionnelle couples de lettres
le mot: "lettre"
p(l) =
p(e précédé de l) =
p(t précédé de e) =
ou même mieux p(t précédé de e précédé de l) =
--
préparation du dictionnaire
Majuscule->minuscules
lister les caractères spéciaux:
1234567890°+
&é"'(-è_çà)=
~#{[|`\^@]}
$£ù%*µ
,?;.:/!§
choisir une probabilité arbitraire (hypothèse) pour
chaque caractère spécial et insérer ces valeurs dans la table 'probs'