Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

docs: add feature platform use cases #3701

Closed
Closed
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
35 changes: 0 additions & 35 deletions docs/zh/app_ecosystem/feature_platform/concept.md

This file was deleted.

59 changes: 0 additions & 59 deletions docs/zh/app_ecosystem/feature_platform/functions.md

This file was deleted.

Original file line number Diff line number Diff line change
@@ -0,0 +1,23 @@
# 预计算特征

## 介绍

用户可以通过预计算把特征值直接存入OpenMLDB在线表中,然后访问在线表数据进行读写特征。

OpenMLDB 提供了类似 Redis 的内存数据索引查询功能,可以快速高效得提取预先计算好的特征值,这个功能也和传统 Feature Store 的在线存储实现类似,但如果特征抽取逻辑修改了也需要在外部的预计算逻辑上提前修改。

![](../images/computed_feature_page.png)

## 预览样本特征

用户可以直接选择特征表,然后选择需要提取的特征列,点击“预览样本特征”即可进行特征的预览。

![](../images/computed_feature_sample.png)

注意,如果需要实现更复杂的特征计算逻辑,例如对特征列进行表达式计算,可以通过命令行或 SDK 来编写 OpenMLDB SQL 实现。

## 通过索引过滤

用户除了预览随机的样本特征,还可以通过数据表的索引来检索。首先选择表内包含的索引,如果想通过其他索引方式查询则可以使用 SQL 来创建新的索引,然后根据索引填写对应的值,这样就可以实现精确的预计算特征检索了。

![](../images/computed_feature_with_index.png)
110 changes: 110 additions & 0 deletions docs/zh/app_ecosystem/feature_platform/functions/import_data.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,110 @@

# 数据导入

## 介绍

OpenMLDB 特征平台在前端支持数据导入相关功能,功能如下:

* 数据库管理
* 创建数据库
* 查看数据库
* 删除数据库
* 数据表管理
* 创建数据表
* 查看数据表
* 删除数据表
* 数据导入
* 在线数据导入
* 离线数据导入

用户可以在此页面完成特征工程需要的所有在线和离线数据表的创建和导入。

![](../images/import_data.png)

## 创建数据库

在创建数据库页面,可以通过点击“创建数据库”按钮来创建新的数据库,只需要输入不重复的数据库名即可。

![](../images/create_database_form.png)

在同一个页面展示了 OpenMLDB 的所有数据库列表,可以通过列表来查看数据库名称和执行删除操作。

![](../images/database_list.png)

点击数据库名称,还可以查看数据库内详情,包括该数据库下所有数据表,还能进一步点击查看数据表详情。

![](../images/database_detail.png)

## 创建数据表

在创建数据表页面,包含了“创建数据表”、“使用 SQL 创建表”、“使用 Parquet 创建表”和“使用 Hive 创建表”四种功能。

选择“创建数据表”按钮,只需要填写表名以及每一列的字段名和类型即可,简单易用但限制是无法直接指定索引。

![](../images/create_table_form.png)

选择“使用 SQL 创建表”按钮,用户可以输入 SQL 语句来创建数据表,灵活性最强并且可以指定索引。

![](../images/create_table_from_sql.png)

选择“使用 Parquet 创建表”按钮,用户可以输入 Parquet 文件路径来创建数据表,同样无法指定索引。

![](../images/create_table_from_parquet.png)

选择“使用 Hive 创建表”按钮,用户可以输入 Hive 表名来创建数据表,同样无法指定索引。

![](../images/create_table_from_hive.png)

在同一个页面展示了 OpenMLDB 的所有数据表列表,可以通过列表来查看数据表名称和执行删除操作。

![](../images/table_list.png)

点击数据库名称,可以参看数据库详情,点击数据表名称,则查看数据表的详情信息,并且可以在详情页快速预览在线表的数据。

![](../images/table_detail.png)

## 导入在线数据

在导入在线表页面,包含了“使用 SQL 导入”、“插入单行数据”、“使用 Parquet 导入”、“使用 CSV 导入”和“使用 Hive 导入”的五种功能。

选择“使用 SQL 导入”, 用户可以执行任意的“INSERT”或“LOAD DATA”语句来导入数据。

![](../images/import_online_from_sql.png)

选择“插入单行数据”,用户可以手动输入单行数据来导入数据。

![](../images/import_online_from_insert.png)

选择“使用 Parquet 导入”,用户可以输入 Parquet 文件路径来导入数据。

![](../images/import_online_from_parquet.png)

选择”使用 CSV 导入”,用户可以输入 CSV 文件路径来导入数据。

![](../images/import_online_from_csv.png)

选择“使用 Hive 导入”,用户可以输入 Hive 表名来导入数据。

![](../images/import_online_from_hive.png)

## 导入离线数据

导入离线数据功能和导入在线数据功能类似,但暂时不支持插入单行离线数据,并且所有的导入任务都会切换到离线模式执行。

在导入离线表页面,包含了“使用 SQL 导入”、“使用 Parquet 导入”、“使用 CSV 导入”和“使用 Hive 导入”的四种功能。

选择“使用 SQL 导入”, 用户可以执行任意的“INSERT”或“LOAD DATA”语句来导入数据。

![](../images/import_offline_from_sql.png)

选择“使用 Parquet 导入”,用户可以输入 Parquet 文件路径来导入数据。

![](../images/import_offline_from_parquet.png)

选择”使用 CSV 导入”,用户可以输入 CSV 文件路径来导入数据。

![](../images/import_offline_from_csv.png)

选择“使用 Hive 导入”,用户可以输入 Hive 表名来导入数据。

![](../images/import_offline_from_hive.png)
17 changes: 17 additions & 0 deletions docs/zh/app_ecosystem/feature_platform/functions/index.rst
Original file line number Diff line number Diff line change
@@ -0,0 +1,17 @@
=============================
功能列表
=============================

.. toctree::
:maxdepth: 1

import_data
manage_feature
online_scenario
offline_scenario
sql_playground
manage_center
computed_features

sql_tool

33 changes: 33 additions & 0 deletions docs/zh/app_ecosystem/feature_platform/functions/manage_center.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,33 @@
# 管理中心

## 介绍

OpenMLDB 特征平台提供了对于数据表,特征,任务以及服务的管理功能,用户可以在管理中心查看和管理相关资源。

目前支持查看和管理的资源如下:

* 特征:查看目前已创建的特征视图以及其中的单个特征。具体信息包括名称、对应数据库、SQL、依赖表等。
* 数据表:查看目前已创建的数据库及数据表。数据表的具体信息包括schema、关联特征视图、关联特征服务等。
* 离线样本:查看已导出的离线样本信息。具体信息包括特征名、导出路径、SQL、相关联的离线任务状态、日志等。
* 离线任务:查看运行中/已运行的离线任务。具体信息包括任务类型、状态、运行日志等。
* 特征服务:查看已上线的特征服务。具体信息包括版本、特征名、SQL、Deployment、相关联的特征及依赖表等。并提供服务测试界面。

## 特征管理

![](../images/features_page.png)

## 数据表管理

![](../images/tables_page.png)

## 离线样本管理

![](../images/offline_samples_page.png)

## 离线任务管理

![](../images/offline_jobs_page.png)

## 特征服务管理

![](../images/feature_services_page.png)
50 changes: 50 additions & 0 deletions docs/zh/app_ecosystem/feature_platform/functions/manage_feature.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,50 @@
# 特征管理

## 介绍

OpenMLDB 提供完备的特征生命周期管理功能,包含的功能如下:

* 创建
* 创建特征视图
* 自动创建特征视图包含的特征
* 查看
* 查看特征视图详情
* 查看特征详情
* 预览样本特征
* 删除
* 删除特征视图
* 自动删除特征视图包含的特征

![](../images/features_page.png)

## 创建

用户想要创建特征,首先要创建一个特征视图,也就是用 SQL 定义的一组特征。

在特征页面,点击创建按钮,可以填写特征视图的名称,选择默认的数据库,然后填写要抽取特征的 SQL 语句,如果不了解 SQL 语法可点击旁边的“SQL 使用案例”来参考。

![](../images/create_feature_form1.png)

填写完成后需要点击“分析 SQL”,这一步会对 SQL 语法进行校验,并且检查 SQL 语句是否符合上线需求。校验成功后会自动分析出 SQL 对应的特征数量和类型,用户可以在创建前给每个特征添加特征描述,方便后期检索。

![](../images/create_feature_form2.png)

如果用户填写了错误的 SQL 语句,会提示“执行失败”,用户可以通过日志查看错误信息,并且修改 SQL 保证分析成功后才能创建。

## 查看

成功创建特征后,用户可以在所有特征列表和以及所有特征视图列表中查看系统中所有特征的详情信息。

点击特征视图的名称,可以查看特征视图的详情信息,包括创建时指定的 SQL 语句,以及关联的特征列表,还有依赖的数据表等。

![](../images/feature_view_detail.png)

点击特征的名称,则可以查看特征的详细信息,包括特征所在的特征视图,提取单个特征自动生成的 SQL 语句,以及可以快速预览样本特征。

![](../images/feature_detail.png)

## 删除

在特征视图列表中,有“删除”按钮,用户点击确认后可以删除对应的特征视图,并且自动删除特征视图包含的特征。注意删除操作一旦执行就无法撤回,请谨慎操作。

![](../images/delete_feature_view.png)
Original file line number Diff line number Diff line change
@@ -0,0 +1,32 @@

# 离线场景

## 介绍

用户可以在此界面完成所有跟离线场景有关的需求,功能包括:

* 创建离线样本
* 查看离线样本
* 删除服务版本
tobegit3hub marked this conversation as resolved.
Show resolved Hide resolved

离线场景下所有导出任务都使用分布式计算,读取离线数据后进行特征抽取并导出成离线样本文本,使用开源的机器学习训练框架即可使用。

![](../images/offline_scenario.png)

## 创建离线样本

用户点击创建按钮,可以创建和导出一次离线样本,用户只需要选择需要导出的特征和导出路径即可,选择的特征要求可参考[在线场景文档](./online_scenario.md)。

![](../images/create_offline_sample.png)

除了基础参数,用户点击“更多选项”,还可以指定导出任务的 Spark 资源参数、导出的样本文件格式、导出模式等等。

## 查看离线样本

用户点击离线样本的编号,可以查看离线样本的详情信息,包括样本的导出路径、导出时间、导出模式、导出样本的文件格式等等,也可以查看关联的离线任务的状态和日志,只有离线任务执行成功过才可以开始使用离线样本文件。

![](../images/offline_sample_detail.png)

## 删除服务版本

在离线样本列表有“删除”按钮,用户点击并确认后可以删除离线样本的记录,注意这里不会删除实际的样本文件,用户如果需要可以手动到导出路径处删除。删除操作同样时不可撤回,请谨慎操作。
Loading
Loading