Weird tokenization outputs? #380

vanikanjirangat · 2025-01-22T10:46:18Z

When I tried Llama3.2-3B for tokenizing Hindi input using HuggingFace Autotokenizer and tokenize function, I get weird characters. Can anyone help with this?
Input: रावन के कोय उत्तर नय सूझल ।
TokenList: ['à¤°', 'à¤¾à¤µà¤¨', 'Ġà¤ķ', 'à¥ĩ', 'Ġà¤ķ', 'à¥ĭ', 'à¤¯', 'Ġà¤īà¤¤', 'à¥įà¤¤à¤°', 'Ġà¤¨à¤¯', 'Ġà¤¸', 'à¥Ĥ', 'à¤Ŀ', 'à¤²', 'Ġà¥¤']

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Weird tokenization outputs? #380

Weird tokenization outputs? #380

vanikanjirangat commented Jan 22, 2025

Weird tokenization outputs? #380

Weird tokenization outputs? #380

Comments

vanikanjirangat commented Jan 22, 2025