Skip to content

Commit

Permalink
update
Browse files Browse the repository at this point in the history
  • Loading branch information
esythan committed May 23, 2022
1 parent 84f342c commit bcc344f
Show file tree
Hide file tree
Showing 2 changed files with 3 additions and 1 deletion.
2 changes: 1 addition & 1 deletion docs/api/paddle/static/nn/sparse_embedding_cn.rst
Original file line number Diff line number Diff line change
Expand Up @@ -63,7 +63,7 @@ input中的id必须满足 ``0 =< id < size[0]``,否则程序会抛异常退出
- **size** (tuple|list) - embedding矩阵的维度(vocab_size,emb_size)。必须包含两个元素,第一个元素为vocab_size(词表大小), 第二个为emb_size(embedding层维度)。大规模稀疏场景下,参数规模初始为0,会随着训练的进行逐步扩展,因此如果vocab_size暂时无用,其值可以为任意整数,emb_size则为词嵌入权重参数的维度配置。
- **padding_idx** (int|long|None,可选) - padding_idx需在区间 ``[-vocab_size, vocab_size)`` ,否则不生效,``padding_idx < 0`` 时,padding_idx会被改成``vocab_size + padding_idx``,input中等于padding_index的id对应的embedding信息会被设置为0,且这部分填充数据在训练时将不会被更新。如果为None,不作处理,默认为None。
- **is_test** (bool,可选) - 表示训练/预测模式。在预测模式(is_test=False)下,遇到不存在的特征,不会初始化及创建,直接以0填充后返回。默认值为False。
- **entry** (str,可选) - 准入策略配置,目前支持概率准入ProbabilityEntry和频次准入CountFilterEntry。默认为None。
- **entry** (str,可选) - 准入策略配置,目前仅支持ShowClickEntry,对特征的展现(show)和点击(click)进行计数。默认为None。
- **table_class** (str,可选) - 稀疏表的类型,其值可以为CommonSparseTable和SSDSparseTable。默认为CommonSparseTable。
- **param_attr** (ParamAttr,可选) - 指定权重参数属性的对象。默认值为None,表示使用默认的权重参数属性。具体用法请参见 :ref:`cn_api_paddle_ParamAttr` 。此外,可以通过 ``param_attr`` 参数加载用户自定义或预训练的词向量。只需将本地词向量转为numpy数据格式,且保证本地词向量的shape和embedding的 ``size`` 参数一致,然后使用 :ref:`cn_api_paddle_to_tensor` 进行初始化,即可实现加载自定义或预训练的词向量。
- **dtype** (str) - 输出Tensor的数据类型,数据类型必须为:float32 或float64,默认为float32。
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -59,6 +59,7 @@
fleet.init(is_collective=False)
2.2.3 加载模型
""""""""""""

.. code-block:: python
Expand All @@ -71,6 +72,7 @@
""""""""""""

由于搜索推荐场景涉及到的训练数据通常较大,为提升训练中的数据读取效率,参数服务器采用InMemoryDataset/QueueDataset进行高性能的IO。

InMemoryDataset/QueueDataset所对应的数据处理脚本参考examples/wide_and_deep_dataset中的reader.py,与单机DataLoader相比,存在如下区别:
1. 继承自 ``fleet.MultiSlotDataGenerator`` 基类。
2. 实现基类中的 ``generate_sample()`` 函数,逐行读取数据进行处理,并返回一个可以迭代的reader方法。
Expand Down

0 comments on commit bcc344f

Please sign in to comment.