[spark] PaimonSplitScan supports column pruning and filter push down #4217

ulysses-you · 2024-09-19T07:44:01Z

Purpose

PaimonSplitScan is built for internal scan with update/delete/mergeinto. It is used to generate deletion vector, collect touched files, etc. The main usage is to select some metadata columns based on target table, e.g., row index, file path. That says, it does not need to load data columns.

This pr makes PaimonSplitScan support column pruning and filter push down to improve performance:

introduce KnownSplitsTable, it is a ReadonlyTable and hold some known data splits
introduce PaimonSplitScanBuilder, it is used when the table is the KnownSplitsTable and build PaimonSplitScan

For example:

update test set c1 = 9 where c2 = 'a';

before:

(1) BatchScan default.test
Output [5]: [c1#197, c2#198, c3#199, c4#200, __paimon_file_path#205]
class org.apache.paimon.spark.PaimonSplitScan

(2) Filter [codegen id : 1]
Input [5]: [c1#197, c2#198, c3#199, c4#200, __paimon_file_path#205]
Condition : (c2#198 = a)

(3) Project [codegen id : 1]
Output [1]: [__paimon_file_path#205]
Input [5]: [c1#197, c2#198, c3#199, c4#200, __paimon_file_path#205]

after:

(1) BatchScan default.test
Output [2]: [c2#137, __paimon_file_path#144]
PaimonSplitScan: [test], PushedFilters: [Equal(c2, a)]

(2) Filter [codegen id : 1]
Input [2]: [c2#137, __paimon_file_path#144]
Condition : (c2#137 = a)

(3) Project [codegen id : 1]
Output [1]: [__paimon_file_path#144]
Input [2]: [c2#137, __paimon_file_path#144]

Tests

Pass CI

API and Format

No

Documentation

ulysses-you · 2024-09-19T08:31:34Z

cc @JingsongLi @YannByron thank you

JingsongLi

+1

JingsongLi · 2024-09-24T10:49:14Z

@ulysses-you Can you add a test to verify plan?

JingsongLi approved these changes Sep 24, 2024

View reviewed changes

ulysses-you added 2 commits September 25, 2024 10:23

PaimonSplitScan supports column pruning and filter push down

49445a5

add test

7dd6d54

ulysses-you force-pushed the scan2 branch from fcd1bb6 to 7dd6d54 Compare September 25, 2024 02:24

JingsongLi merged commit 3e87195 into apache:master Sep 25, 2024
9 of 10 checks passed

ulysses-you deleted the scan2 branch September 29, 2024 02:17

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[spark] PaimonSplitScan supports column pruning and filter push down #4217

[spark] PaimonSplitScan supports column pruning and filter push down #4217

ulysses-you commented Sep 19, 2024 •

edited

Loading

ulysses-you commented Sep 19, 2024

JingsongLi left a comment

JingsongLi commented Sep 24, 2024

[spark] PaimonSplitScan supports column pruning and filter push down #4217

[spark] PaimonSplitScan supports column pruning and filter push down #4217

Conversation

ulysses-you commented Sep 19, 2024 • edited Loading

Purpose

Tests

API and Format

Documentation

ulysses-you commented Sep 19, 2024

JingsongLi left a comment

Choose a reason for hiding this comment

JingsongLi commented Sep 24, 2024

ulysses-you commented Sep 19, 2024 •

edited

Loading