Skip to content

Latest commit

 

History

History
39 lines (18 loc) · 836 Bytes

数据加载流程.md

File metadata and controls

39 lines (18 loc) · 836 Bytes

1. 划分总数据集->每个cient的数据

位置:FedEKit/data_tool/data_partition.py

输入:数据集地址,partition方式, 异质程度,client数量

输出:每个client的训练集,global testset

接口:data_partition.py第19行往下写

2. 从文件载入每个client的数据

位置:FedEKit/data_tool/data_path.py

输入:文件地址

输出:DatasetDict

调用:main.py line90

接口:data_path.py往字典加路径

3. Tokenize

这里复杂点,prompter.generate_prompt也要修改。你可以copy一份新的_generate_and_tokenize_prompt_new_dataset,以及新的Prompter template。等写好之后再整合。

位置:FedEKit/data_tool/data_tokenizer.py

输入:DatasetDict,tokennizer

输出:Dataset

调用:main.py line57

接口:data_tokenizer.py第13行开始