feat: support dynamic vocab len #30

silver-ymz · 2025-01-13T04:56:00Z

close #25

Now all operations about index don't rely on vocab len. Maybe we can remove TOKENIZER_NAME guc, and update tokenizer(text) to tokenizer(text, model_name).

Signed-off-by: Mingzhuo Yin <[email protected]>

VoVAllen · 2025-01-13T06:57:25Z

Maybe we can remove TOKENIZER_NAME guc, and update tokenizer(text) to tokenizer(text, model_name).

Looks good to me. Better to use verb like tokenize(text). And do we need to change the syntax to

SELECT id, passage, embedding <&> to_bm25query('documents_embedding_bm25', tokenize('PostgreSQL')) AS rank
FROM documents
ORDER BY rank
LIMIT 10;

or SELECT id, passage, embedding <&> to_bm25query('documents_embedding_bm25', 'PostgreSQL', tokenizer_name) AS rank FROM documents ORDER BY rank LIMIT 10;

VoVAllen · 2025-01-13T06:58:18Z

And is this related to the posting cursor refactor?

silver-ymz · 2025-01-13T10:40:21Z

And do we need to change the syntax to
SELECT id, passage, embedding <&> to_bm25query('documents_embedding_bm25', tokenize('PostgreSQL')) AS rank
FROM documents
ORDER BY rank
LIMIT 10;
or SELECT id, passage, embedding <&> to_bm25query('documents_embedding_bm25', 'PostgreSQL', tokenizer_name) AS rank FROM documents ORDER BY rank LIMIT 10;

Yes, Here is an example for updated API:

CREATE TABLE documents (
    id SERIAL PRIMARY KEY,
    passage TEXT
);

INSERT INTO documents (passage) VALUES
('PostgreSQL is a powerful, open-source object-relational database system.');

ALTER TABLE documents ADD COLUMN embedding bm25vector;

UPDATE documents SET embedding = tokenize(passage, "unicode"); -- specify tokenizer here

CREATE INDEX documents_embedding_bm25 ON documents USING bm25 (embedding bm25_ops);

SELECT id, passage, embedding <&> to_bm25query('documents_embedding_bm25', 'PostgreSQL', 'unicode') AS rank -- also specify tokenizer for to_bm25query
FROM documents
ORDER BY rank
LIMIT 10;

And is this related to the posting cursor refactor?

No, it doesn't contain the posting cursor refactor in #18

VoVAllen · 2025-01-13T11:31:54Z

The updated API looks good to me. Please update the readme accordingly when finished. You can merge it when ready.

Signed-off-by: Mingzhuo Yin <[email protected]>

feat: support dynamic vocab len

0e64b6f

Signed-off-by: Mingzhuo Yin <[email protected]>

silver-ymz requested a review from VoVAllen January 13, 2025 04:58

VoVAllen approved these changes Jan 13, 2025

View reviewed changes

refactor: api about tokenizer

abe6e88

Signed-off-by: Mingzhuo Yin <[email protected]>

silver-ymz merged commit 496a6cc into main Jan 15, 2025
5 checks passed

silver-ymz deleted the feat/dynamic-vocab-size branch January 15, 2025 05:35

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feat: support dynamic vocab len #30

feat: support dynamic vocab len #30

silver-ymz commented Jan 13, 2025

VoVAllen commented Jan 13, 2025

VoVAllen commented Jan 13, 2025

silver-ymz commented Jan 13, 2025

VoVAllen commented Jan 13, 2025

feat: support dynamic vocab len #30

feat: support dynamic vocab len #30

Conversation

silver-ymz commented Jan 13, 2025

VoVAllen commented Jan 13, 2025

VoVAllen commented Jan 13, 2025

silver-ymz commented Jan 13, 2025

VoVAllen commented Jan 13, 2025