-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathnotas15_05.txt
82 lines (53 loc) · 16.1 KB
/
notas15_05.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
Essa versão do LSPM não está usando um dos termos da equação original para amostrar documentos, que é justamente a prob. duma frase ser relevante ser da classe. Está sendo admitido que essa prob. é 0.5.
23/05
Hoje, depois de fazer um parser pro corpus anotado de sentenças do bitterlemons, vou rodar prum pedacinho do corpus e ver se ele saca a diferença dos documentos. Pra isso, é claro, vou manter uma lista do que é Palestina e do que é Jerusalém. Quem viver, verá. :-)
Decisões de projeto: arrumar esse parser pra documentos reais antes de dizer se o modelo tá certo ou n; com aqueles documentos gerados artificialmente pelo parse_docs.py, tava mta forçação de barra! A idéia é fazer cru e, depois, botar iterações iniciais pra descartar e só aproveitar a computação de tempos em tempos (tudo bem que pareeece que tá convergindo rápido). Depois, o mais importante é fechar uma partezinha do corpus pra deixar semi-supervisionado.
Bom, mudança de planos: fazer um script que separe o nome dos autores e se é palestina ou israel, marcando os documentos numa tabela em algum lugar. Com isso feito, rodar com o máximo de documentos que o programa consiga pegar em tempo de um dia de execução.
MIL MUDANÇAS IMPORTANTES!
Agora, vou usar o corpus que efetivamente foi utilizado no artigo do LSPM, em vez daquilo que baixei do site na tora: http://sites.google.com/site/weihaolinatcmu/data
Isso é crucial para saber que estamos comparando de igual pra igual, nosso modelo com o deles (como assim n pensei nisso antes, Brasil?).
Outra coisa: na hora de escolher os documentos, n eh pra escolhê-los aleatoriamente. É melhor escolher os autores aleatoriamente. P q isso?
ah, e uma dica
se vc for rodar seu experimento, e vc tem acesso a informação de autores, o ideal não é vc escolher textos aleatórios pra fazer treinamento e teste e sim escolher autores aleatórios pra treinamento e teste
aí vc tem certeza que está identificando perspectivas mesmo e não só fazendo identificação de autores
24/05
Rodar a parada com 15% dos autores. Importante monitorar o numero de iterações. Vou começar com 200 e jogar de 10 em 10 num arquivo.
Autores escolhidos para primeiro teste:
['Haidar Abdul Shafi', 'Bassam Salahi', 'Abdel Aziz Rantisi', 'Yoram Meital', 'Meir Sheetrit', 'Asher Susser', 'Mudar Kassis', 'Diana Buttu', 'Dan Schueftan', 'Daniel Seidemann', 'Haidar Abdel Shafi', 'Rema Hammami', 'Jamil Hamami', 'Efraim Inbar', 'Sharif Omar', 'Dan Meridor', 'Amnon Abramovitz', 'Yaakov Amidror', 'Khalil Tufakji', 'Yossi Sarid', 'Issa Samandar', 'Ziad Al Sarafendi', 'Shlomo Brom', 'Saleh Abdul Jawad', 'Samih Al Abed', 'Abraham Ben-Zvi', 'Yossi Beilin', 'Ziad Abu Zayyad', 'Ghazi Hamed', 'Intisar al Wazir']
Rodar com 40% dos autores. 1000 iterações, jogando de 10 em 10 em um arquivo
['Rema Hammami', 'Smadar Perry', 'Hasan Abu Libdeh', 'Yaser M. Dajani', 'Ihsan Asalim', 'Qais Abu Layla', 'Khalil Tufakji', 'David Kimche', 'Yossi Alpher', 'Galia Golan', 'Shlomo Avineri', 'Hanna Amireh', 'Ephraim Sneh', 'Amos Harel', 'Hatem Abdel Qader', 'Bishop Munib Younan', 'Qadura Fares', 'Muhammad Dahlan', 'Ghassan Andoni', 'Yoram Meital', 'Daniel Seidemann', 'George Giacaman', 'Nabil Shaath', 'Samih Al Abed', 'Amir Cheshin', 'Hisham Abdel Razeq', 'Uzi Arad', 'Arnon Soffer', 'Ida Audeh', 'Gidon Bromberg', 'Israel Elad Altman', 'Adina Shapiro', 'Hisham Awartani', 'Nadia Naser-Najjab', 'Yaacov Amidror', 'Hanan Ashrawi', 'Charles Shamas', 'Uri Savir', 'Lily Galili', 'Amnon Abramovitz', 'Sari Nusseibeh', 'Mamdouh Nofal', 'Alouph Hareven', 'Ziad Al Sarafendi', 'Eyad el Sarraj', 'Shimon Peres', 'Eytan Gilboa', 'Mahmoud Zahhar', 'Gilead Sher', 'Maha Abu Dayyeh Shamas', 'Abdul Jawad Saleh', 'Ziad Asali', 'Ephraim Inbar', 'Akiva Eldar', 'Asher Susser', 'Avraham Sela', 'Yaakov Amidror', 'Jamil Hamami', 'Eyad El Sarraj', 'Barry Rubin', 'Abraham Ben-Zvi', 'Hisham Ahmed', 'Jonathan Kuttab', 'Jad Isaac', 'Naseer Aruri', 'Hasan Asfour', 'Danny Rothschild', 'Salim Tamari', 'Tamar Hermann', 'Akram Atallah', 'Alon Liel', 'Naim Al Ashhab', 'Shlomo Ben-Ami', 'Zeev Schiff', 'Amireh Hanna', 'Yair Hirschfeld', 'Hirsh Goodman', 'Ziad Abu Zayyad', 'Muhsin Yusuf', 'Dror Etkes']
01/06
Rodando com 5% dos autores para testar likelihood e impressao de palavras mais comuns.
Autores:
['Moriah Shlomot', 'Ziad Asali', 'Naseer Aruri', 'Akram Atallah', 'Gilead Sher', 'Majid Al-Haj', 'Maha Abu Dayyeh Shamas', 'Bassam Al-Salhi', 'Israel Elad Altman', 'Amin Amin']
30 palavras mais comuns por classe; 1000 iterações.
Rodando com 40% dos autores.
['Gidon Bromberg', 'Max Singer', 'Yair Evron', 'Lily Galili', 'Uri Savir', 'Galia Golan', 'Amir Cheshin', 'Mouin Rabbani', 'Avraham Sela', 'Ahmad Harb', 'Menachem Froman', 'Haidar Abdul Shafi', 'Ruth Lapidoth', 'Nabil Khatib', 'Abraham Ben-Zvi', 'Danny Rubinstein', 'Muhammad Dahlan', 'Boaz Ganor', 'Ida Audeh', 'David Newman', 'Yossi Sarid', 'Shlomo Gazit', 'Ziad Asali', 'Khalida Jarrar', 'Eran Lerman', 'Dov Sedaka', 'Arnon Groiss', 'Tzipi Livni', 'Dror Etkes', 'Ingrid Gassner Jaradat', 'Uri Ariel', "Moshe Ma'oz", 'Yossi Alpher', 'Daoud Kuttab', 'Moriah Shlomot', 'Mudar Kassis', 'Ghassan Andoni', 'Danny Ayalon', 'Hisham Abdel Razeq', 'Amnon Lord', 'Dan Schueftan', 'Ron Pundak', 'Abdel Rahman Tamimi', 'Zvi Elpeleg', 'Abdul Jawad Saleh', 'Mamdouh Nofal', 'Riad Malki', 'Issam Nassar', 'Avraham Poraz', 'Saleh Abdul Jawad', 'Eytan Gilboa', 'Smadar Perry', 'Qadura Fares', 'Nadia Naser-Najjab', 'Bruce Maddy-Weitzman', 'Naim Al Ashhab', 'Khalil Tufakji', 'Samah Jabr', 'Saeb Erekat', 'Amira Hass']
30 palavras mais comuns/1000 iterações.
02/06
Rodando com 40% dos autores e com supervisão!
['Ghassan Khatib', 'Arnon Groiss', 'Aluf Benn', 'Yossi Melman', 'Uzi Landau', 'Ghassan Andoni', 'Eyad El Sarraj', 'Hirsh Goodman', 'Dov Sedaka', 'Meron Benvenisti', 'Nabeel Kassis', 'Zalman Shoval', 'Ron Pundak', 'Daoud Kuttab', 'Amir Cheshin', 'Riad Malki', 'Ephraim Inbar', 'Yaakov Amidror', 'Yisrael Harel', 'Yasser Abed Rabbo', 'Galia Golan', 'Daniel Seidemann', 'Gregory Khalil', 'Alon Liel', 'Uri Savir', 'Fouad Al Moughrabi', 'David Newman', 'Yair Sheleg', 'Jamal Juma', 'Azmi Shuaibi', 'Hasan Khreisheh', 'Robbie Sabel', 'Jamal Shobaki', 'Majid Al-Haj', 'Yaron Ezrahi', 'Samah Jabr', 'Marwan Barghouti', 'Saleh Abdel Jawad', 'Ziad Al Sarafendi', 'Oded Eran', 'Amira Hass', 'Khalida Jarrar', 'Eyad el Sarraj', 'Amos Harel', 'Ruth Lapidoth', 'Akiva Eldar', 'Yoram Meital', 'Meir Sheetrit', 'Islah Jad', 'Saleh Abdul Jawad', 'Lamis Andoni', 'Sharif Omar', 'Yair Hirschfeld', 'Yossi Beilin', "Moshe Ma'oz", 'Haidar Abdel Shafi', 'Boaz Ganor', 'Dror Etkes', 'Jad Isaac', 'Shlomo Avineri', 'Salim Tamari', 'Zakaria Al Agha', 'Alouph Hareven', 'Mahmoud Zahhar', 'Hasan Asfour', 'Nabil Khatib', 'Maha Abu Dayyeh Shamas', 'Moriah Shlomot', 'Yosef (Tommy) Lapid', 'Abdel Aziz Rantisi', 'Issam Nassar', 'Nabil Shaath', 'Danny Ayalon', 'Danny Rubinstein', 'Rami Shehadeh', 'Leila Farsakh', 'Abraham Ben-Zvi', 'Ingrid Gassner Jaradat', 'Hasan Abu Libdeh', 'Gidon Bromberg']
263 artigos.
02/06
Resolvi rodar com o 65% e 60% de supervisão. Escrevendo freq's pra 3 classes.
['Islah Jad', 'Leila Farsakh', 'Uri Elitzur', 'Hanan Ashrawi', 'Mahmoud Zahhar', 'Danny Rubinstein', 'Abraham Ben-Zvi', 'Lily Galili', 'Adina Shapiro', 'Yossi Beilin', 'Salim Tamari', 'Ida Audeh', 'Fouad Al Moughrabi', 'Yossi Alpher', 'Abdel Aziz Rantisi', 'Akiva Eldar', 'Daniel Seidemann', 'Rema Hammami', 'David Kimche', 'Ingrid Gassner Jaradat', 'Nadia Naser-Najjab', 'Naim Al Ashhab', 'Uri Ariel', 'Khalida Jarrar', 'Oded Eran', 'Hisham Abdel Razeq', 'Hatem Abdel Qader', 'Yoram Meital', 'Azmi Shuaibi', 'Hisham Awartani', 'Jamil Hilal', 'Rami Shehadeh', 'Amireh Hanna', 'Hirsh Goodman', 'Shlomo Ben-Ami', 'Sami Awad', 'Ghazi Hamed', 'Dan Meridor', 'Jonathan Kuttab', 'Adel Manna', 'Arie Lova Eliav', 'Intisar al Wazir', 'Hasan Abu Libdeh', 'Hasan Abu-Libdeh', 'Meron Benvenisti', 'Mouin Rabbani', 'Ihab Abu Ghosh', 'Menachem Froman', 'Smadar Perry', 'Yaakov Amidror', 'David Newman', 'George Giacaman', 'Amir Cheshin', 'Arnon Groiss', 'Marwan Barghouti', 'Shlomo Gazit', 'Muhammad Dahlan', 'Issa Samandar', 'Ephraim Kleiman', 'Ziad Al Sarafendi', 'Diana Buttu', 'Yair Hirschfeld', 'Khalil Shikaki', 'Issam Nassar', 'Ghada Karmi', 'Bruce Maddy-Weitzman', 'Qais Abu Layla', 'Tzipi Livni', 'Hisham Ahmed', 'Naseer Aruri', 'Ghassan Khatib', 'Amin Amin', 'Alouph Hareven', 'Eyad El Sarraj', 'Yasser Abed Rabbo', 'Ziad Asali', 'Akram Atallah', 'Aluf Benn', 'Yaacov Amidror', 'Ron Pundak', 'Shimon Peres', 'Haidar Abdul Shafi', 'Samir Abdullah', 'Hasan Asfour', 'Yair Sheleg', 'Galia Golan', 'Zeev Schiff', 'Meir Sheetrit', 'Israel Elad Altman', 'Gilead Sher', 'Boaz Ganor', 'Abdel Rahman Tamimi', 'Zahira Kamal', 'Gidon Bromberg', 'Dore Gold', 'Saeb Erekat', 'Saul Singer', 'Haidar Abdel Shafi', 'Amnon Abramovitz', 'Dov Sedaka', 'Nabil Shaath', 'Dan Schueftan', 'Reuven Merhav', 'Ziad Abu Amr', 'Eyad el Sarraj', 'Muhsin Yusuf', 'Salem Ajluni', 'Saleh Abdel Jawad', 'Efraim Inbar', 'Sari Nusseibeh', 'Bassam Al-Salhi', 'Jad Isaac', 'Abdul Jawad Saleh', 'Uri Savir', 'Asher Susser', 'Avraham Sela', 'Michael Tarazi', 'Sam Bahour', 'Arnon Soffer', 'Ephraim Inbar', 'Tamar Hermann', 'Gregory Khalil', 'Rima Tarazi', 'Ruth Lapidoth', 'Uzi Landau', 'Riad Malki', 'Amnon Lord', 'Moshe Arens', 'Daoud Kuttab', 'Ihsan Asalim']
482 artigos.
Já estourou. Daí, botei:
['Jad Isaac', 'Ahmad Harb', 'Uri Ariel', 'Moshe Arens', 'Bassam Salahi', 'Yossi Sarid', 'Eyad el Sarraj', 'Danny Rubinstein', 'Jamil Hilal', 'Rami Shehadeh', 'Orit Adato', 'Efraim Inbar', 'Issam Nassar', 'Dov Sedaka', 'Tamar Hermann', 'George Giacaman', 'Bruce Maddy-Weitzman', 'Oded Granot', 'Barry Rubin', 'Ruth Lapidoth', 'Zvi Elpeleg', 'Ziad Asali', 'Yair Hirschfeld', 'Hirsh Goodman', 'Gidon Bromberg', 'Azmi Shuaibi', 'Alon Liel', 'Hasan Asfour', 'Ali Jarbawi', 'Qadura Fares', 'Zakaria Al Agha', 'Mahmoud Zahhar', 'Moriah Shlomot', 'Qais Abu Layla', 'Yair Sheleg', 'Ida Audeh', 'Lamis Andoni', 'Daniel Seidemann', 'Saleh Abdul Jawad', 'Adina Shapiro', 'Ghassan Andoni', 'Zeev Schiff', 'Ziad Abu Zayyad', 'Uri Savir', 'Naseer Aruri', "Moshe Ma'oz", 'Amnon Lord', 'Amir Cheshin', 'Hisham Abdel Razeq', 'David Newman', 'Eyad El Sarraj', 'Shlomo Brom', 'Yossi Melman', 'Riad Malki', 'Khalil Shikaki', 'Khalida Jarrar', 'Reuven Merhav', 'Islah Jad', 'Ihab Abu Ghosh', 'Diana Buttu', 'Hanan Ashrawi', 'Samih Al Abed', 'Hisham Ahmed', 'Intisar al Wazir', 'Meron Benvenisti', 'Jamal Juma', 'Khalil Tufakji', 'Marwan Barghouti', 'Uri Elitzur', 'Yaakov Amidror', 'Sami Awad', 'Rima Tarazi', 'Amnon Abramovitz', 'Nabil Khatib', 'Saeb Erekat', 'Sharif Omar', 'Jamal Shobaki', 'Meir Sheetrit', 'Daoud Kuttab', 'Ghazi Hamed', 'Yossi Beilin', "Meir Pa'il", 'Yossi Alpher', 'Saud Abu Ramadan', 'Hatem Abdel Qader', 'Ephraim Kleiman', 'Michael Tarazi', 'Saleh Abdel Jawad', 'Samah Jabr', 'Aluf Benn', 'David Kimche', 'Abdel Aziz Rantisi', 'Abraham Ben-Zvi', 'Yasser Abed Rabbo', 'Robbie Sabel', 'Akram Atallah', 'Sari Nusseibeh', 'Adel Manna', 'Avraham Poraz', 'Maha Abu Dayyeh Shamas', 'Uzi Arad', 'Dan Schueftan', 'Eyal Erlich', 'Salim Tamari', 'Amireh Hanna', 'Avraham Sela', 'Samir Abdullah', 'Adel Zagha', 'Amos Harel', 'Mudar Kassis', 'Hisham Awartani', 'Yair Evron', 'Zahira Kamal', 'Max Singer', 'Gerald M. Steinberg', 'Alouph Hareven', 'Shlomo Gazit', 'Menachem Froman', 'Abdel Rahman Tamimi', 'Gilead Sher', 'Shlomo Ben-Ami', 'Nabeel Kassis', 'Eran Lerman', 'Hasan Abu Libdeh', 'Hasan Khreisheh', 'Israel Elad Altman', 'Hanna Amireh', 'Fouad Al Moughrabi', 'Ron Pundak', 'Sari Hanafi', 'Boaz Ganor', 'Dore Gold', 'Oded Eran', 'Dan Meridor', 'Arnon Groiss', 'Yisrael Harel']
363 docs
Tb pipocou. Daí:
['Hanan Ashrawi', 'Marwan Barghouti', 'Hasan Asfour', 'Jamil Hamami', 'Moriah Shlomot', 'Zahira Kamal', 'Eytan Gilboa', 'Ephraim Kleiman', 'Noah Kinarty', 'Abdel Aziz Rantisi', 'Jessica Montell', 'Nabil Khatib', 'Daniel Seidemann', 'Orit Adato', 'Qais Abu Layla', 'Menachem Froman', 'Gregory Khalil', 'Ron Pundak', 'Rima Tarazi', 'Moshe Arens', 'Islah Jad', 'Ali Jarbawi', 'Uri Savir', 'Nabil Shaath', 'Jonathan Kuttab', 'Diana Buttu', 'Gidon Bromberg', 'Jamal Shobaki', 'Manuel Hassassian', 'Ghada Karmi', 'Issam Nassar', 'Qadura Fares', 'Yair Hirschfeld', 'Amin Amin', 'Amnon Lord', 'Salem Ajluni', 'Intisar al Wazir', 'Danny Rothschild', 'Khalida Jarrar', 'Ziad Abu Zayyad', 'Galia Golan', 'Alon Liel', 'Amir Cheshin', 'Boaz Ganor', 'Daoud Kuttab', 'Danny Ayalon', 'Hasan Abu Libdeh', 'Michael Tarazi', 'Sari Hanafi', 'Hisham Ahmed', 'Mouin Rabbani', 'Gilead Sher', 'Ziad Abu Amr', 'Smadar Perry', 'Oded Eran', 'Zalman Shoval', 'Yaron Ezrahi', 'Robbie Sabel', 'Bassil Jabir', 'Samir Abdullah', 'Abdel Rahman Tamimi', 'Aluf Benn', 'Jamil Hilal', 'Shlomo Avineri', 'Shimon Peres', 'Eyal Erlich', 'Sami Awad', 'Azmi Shuaibi', 'Dan Meridor', 'Sari Nusseibeh', 'Arnon Groiss', 'Samih Al Abed', 'Uri Ariel', 'Ghassan Andoni', 'Saeb Erekat', 'Haidar Abdul Shafi', 'Ahmad Ghneim', 'Nadia Naser-Najjab', 'Amira Hass', 'Fouad Al Moughrabi', 'George Giacaman', 'Eyad El Sarraj', 'Sam Bahour', 'Zeev Schiff', 'Oded Granot', 'Avraham Poraz', 'Leila Farsakh', 'Bassam Al-Salhi', 'Yaser M. Dajani', 'Mahmoud Zahhar', 'Reuven Merhav', 'Dan Schueftan', 'Nabeel Kassis', 'Rami Shehadeh', 'Amos Harel', 'Ziad Asali', 'Uri Elitzur', 'Lily Galili', 'Bruce Maddy-Weitzman', 'Akiva Eldar', 'Ziad Al Sarafendi', 'Dore Gold', 'Saleh Abdel Jawad', 'Michael Eitan', 'Ruth Lapidoth', 'Ghassan Khatib', 'Shlomo Gazit', 'Muhammed Haykaleh', 'Rema Hammami', 'Issa Samandar', 'Salim Tamari', 'Amnon Abramovitz', 'Riad Malki', "Moshe Ma'oz", 'Danny Rubinstein', 'Ephraim Inbar', 'Naseer Aruri', 'Meron Benvenisti', 'Asher Susser', 'Shlomo Brom']
319 docs
07/06
Mudando radicalmente as equações. Testando com 10% dos autores e 31 artigos.
['Ghada Karmi', 'Riad Malki', 'Tamar Hermann', 'Lily Galili', 'Bassam Al-Salhi', 'Shimon Peres', 'Arnon Soffer', 'Zalman Shoval', 'Michael Tarazi', 'Ali Jarbawi', 'Uri Ariel', 'Noah Kinarty', 'Hasan Khreisheh', 'Ruth Lapidoth', 'Yaser M. Dajani', 'Amin Amin', 'Maha Abu Dayyeh Shamas', 'Saul Singer', 'Hatem Abdel Qader', 'Reuven Merhav']
Rodando sem um termo da equação.
08/06
Hoje foi um dia importante. Mexi nas equações novamente e meti stop_words, stemming e palavras de baixa frequencia no pré-processamento. as stop_words são as palavras q apareceram nas 3 classes entre as 60 mais frequentes de cada uma testando com 317 documentos. as off_words são as stop_words mais aquelas palavras q apareceram em apenas um documento, considerando tb 317 deles. as off_words tão mal calculadas; vou usar só as stop_words.
Um experimento: botar label em 100% dos documentos e ver a distribuição das palavras.
243 docs - 20% autores.
['Yisrael Harel', 'Meron Benvenisti', 'Noah Kinarty', 'Hasan Khreisheh', 'Ghazi Hamad', 'Moriah Shlomot', 'Akiva Eldar', 'Ihsan Asalim', 'Yosef (Tommy) Lapid', 'Adel Manna', 'Efraim Inbar', 'Zeev Schiff', 'Avraham Sela', 'Amir Cheshin', 'Hasan Abu-Libdeh', 'Yasser Abed Rabbo', 'Robbie Sabel', 'Bishop Munib Younan', 'Muhammed Haykaleh', "Meir Pa'il", 'Jamal Juma', 'Mahmoud Zahhar', 'Shlomo Gazit', 'Dror Etkes', 'Haidar Abdel Shafi', 'Amira Hass', 'Adel Zagha', 'Yossi Melman', 'Barry Rubin', 'Ghassan Khatib', 'Saul Singer', 'Bassam Salahi', 'Salem Ajluni', 'Nabil Shaath', 'Ahmad Ghneim', 'Ali Jarbawi', 'Yoram Meital', 'Tamar Hermann', 'Adina Shapiro', 'Arnon Soffer', 'Issam Nassar', 'Majid Al-Haj', 'Mamdouh Nofal', 'Zvi Elpeleg', 'Eyad El Sarraj', 'Danny Ayalon', 'Ghada Karmi', 'Hatem Abdel Qader', 'Yair Hirschfeld', 'Tzipi Livni', 'Ziad Asali', 'Amnon Abramovitz', 'Reuven Merhav', 'Ephraim Inbar', 'Shlomo Brom', 'Danny Rubinstein', 'Nabil Khatib', 'Ghassan Andoni', 'Naim Al Ashhab', 'Abraham Ben-Zvi']
13/06
O que tá pegando é que, com 70% de supervisão e ignorando a prior dos documentos, os labels 0 ou 1 começam a acontecer muuuuuuuitooooo - 0 se a classe 0 tiver mais palavras, 1, se a 1 tiver mais palavras (e ganhando frases)! Talvez seja o caso de normalizar somehow.
Sem a prior é incrível como ele classifica meeramente, mas nunca faz nada do tipo botar tuuuuudo com label 0 ou 1. Tá na cara que essa prior precisa ser melhor pensada.
Sem a prior, as classes ficam mais ou menos com o mesmo número de palavras - e são poucas palavras. Daí, a taxa de acerto não fica mto alta, mas nenhuma das classes zera. É interessante ver o poder de uma prior na vida da comunidade.