Skip to content
Open
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
33 changes: 21 additions & 12 deletions docs/version3.x/module_usage/chart_parsing.md
Original file line number Diff line number Diff line change
Expand Up @@ -65,10 +65,10 @@ for res in results:
```

运行结果参数含义如下:

- `image`: 表示输入待预测图像的路径
- `result`: 模型预测的结果信息

<ul>
<li><code>image</code>: 表示输入待预测图像的路径</li>
<li><code>result</code>: 模型预测的结果信息</li>
</ul>
预测结果打印可视化如下:

```bash
Expand All @@ -83,7 +83,7 @@ for res in results:

相关方法、参数等说明如下:

* `ChartParsing`实例化文档类视觉语言模型,具体说明如下:
* <code>ChartParsing</code>实例化文档类视觉语言模型,具体说明如下:
<table>
<thead>
<tr>
Expand All @@ -96,19 +96,22 @@ for res in results:
<tbody>
<tr>
<td><code>model_name</code></td>
<td>>模型名称。如果设置为<code>None</code>,则使用<code>PP-Chart2Table</code>。</td>
<td><b>含义:</b>模型名称。<br/>
<b>说明:</b>
如果设置为<code>None</code>,则使用<code>PP-Chart2Table</code>。</td>
<td><code>str|None</code></td>
<td><code>None</code></td>
</tr>
<tr>
<td><code>model_dir</code></td>
<td>模型存储路径。</td>
<td><b>含义:</b>模型存储路径。</td>
<td><code>str|None</code></td>
<td><code>None</code></td>
</tr>
<tr>
<td><code>device</code></td>
<td>用于推理的设备。<br/>
<td><b>含义:</b>用于推理的设备。<br/>
<b>说明:</b>
<b>例如:</b><code>"cpu"</code>、<code>"gpu"</code>、<code>"npu"</code>、<code>"gpu:0"</code></code>。
默认情况下,优先使用 GPU 0;若不可用则使用 CPU。
</td>
Expand All @@ -118,7 +121,7 @@ for res in results:
</tbody>
</table>

* 调用图表解析模型的 `predict()` 方法进行推理预测,该方法会返回一个结果列表。另外,本模块还提供了 `predict_iter()` 方法。两者在参数接受和结果返回方面是完全一致的,区别在于 `predict_iter()` 返回的是一个 `generator`,能够逐步处理和获取预测结果,适合处理大型数据集或希望节省内存的场景。可以根据实际需求选择使用这两种方法中的任意一种。`predict()` 方法参数有 `input``batch_size`,具体说明如下:
* 调用图表解析模型的 <code>predict()</code> 方法进行推理预测,该方法会返回一个结果列表。另外,本模块还提供了 <code>predict_iter()</code> 方法。两者在参数接受和结果返回方面是完全一致的,区别在于 <code>predict_iter()</code> 返回的是一个 <code>generator</code>,能够逐步处理和获取预测结果,适合处理大型数据集或希望节省内存的场景。可以根据实际需求选择使用这两种方法中的任意一种。<code>predict()</code> 方法参数有 <code>input</code><code>batch_size</code>,具体说明如下:

<table>
<thead>
Expand All @@ -131,21 +134,27 @@ for res in results:
</thead>
<tr>
<td><code>input</code></td>
<td>待预测数据,必填。由于多模态模型对输入要求不同,请根据具体模型设定输入格式。<br/>
<td><b>含义:</b>待预测数据,必填。<br/>
<b>说明:</b>
由于多模态模型对输入要求不同,请根据具体模型设定输入格式。<br/>
<ul>
<li>PP-Chart2Table的输入形式为<code>{'image': image_path}</code></li>
</ul>
</td>
<td><code>dict</code></td>
<td>无</td>
</tr>
<tr>
<td><code>batch_size</code></td>
<td>批大小,可设置为任意正整数。</td>
<td><b>含义:</b>批大小<br/>
<b>说明:</b>
可设置为任意正整数。</td>
<td><code>int</code></td>
<td>1</td>
</tr>
</table>

* 对预测结果进行处理,每个样本的预测结果均为对应的Result对象,且支持打印、保存为`json`文件的操作:
* 对预测结果进行处理,每个样本的预测结果均为对应的Result对象,且支持打印、保存为<code>json</code>文件的操作:

<table>
<thead>
Expand Down
54 changes: 35 additions & 19 deletions docs/version3.x/module_usage/doc_img_orientation_classification.md
Original file line number Diff line number Diff line change
Expand Up @@ -116,18 +116,20 @@ for res in output:
```

运行结果参数含义如下:
- `input_path`:表示输入图片的路径。
- `class_ids`:表示预测结果的类别id,含有四个类别,即0度,90度,180度和270度。
- `scores`:表示预测结果的置信度。
- `label_names`:表示预测结果的类别名。
<ul>
<li><code>input_path</code>:表示输入图片的路径。</li>
<li><code>class_ids</code>:表示预测结果的类别id,含有四个类别,即0度,90度,180度和270度。</li>
<li><code>scores</code>:表示预测结果的置信度。</li>
<li><code>label_names</code>:表示预测结果的类别名。</li>
</ul>

可视化图片如下:

<img src="https://raw.githubusercontent.com/cuicheng01/PaddleX_doc_images/refs/heads/main/images/modules/doc_img_ori_classification/img_rot180_demo_res.jpg">

相关方法、参数等说明如下:

* `DocImgOrientationClassification`实例化文档图像方向分类模型(此处以`PP-LCNet_x1_0_doc_ori`为例),具体说明如下:
* <code>DocImgOrientationClassification</code>实例化文档图像方向分类模型(此处以<code>PP-LCNet_x1_0_doc_ori</code>为例),具体说明如下:
<table>
<thead>
<tr>
Expand All @@ -140,19 +142,22 @@ for res in output:
<tbody>
<tr>
<td><code>model_name</code></td>
<td>模型名称。如果设置为<code>None</code>,则使用<code>PP-LCNet_x1_0_doc_ori</code>。</td>
<td><b>含义:</b>模型名称。<br/>
<b>说明:</b>
如果设置为<code>None</code>,则使用<code>PP-LCNet_x1_0_doc_ori</code>。</td>
<td><code>str|None</code></td>
<td><code>None</code></td>
</tr>
<tr>
<td><code>model_dir</code></td>
<td>模型存储路径。</td>
<td><b>含义:</b>模型存储路径。</td>
<td><code>str|None</code></td>
<td><code>None</code></td>
</tr>
<tr>
<td><code>device</code></td>
<td>用于推理的设备。<br/>
<td><b>含义:</b>用于推理的设备。<br/>
<b>说明:</b>
<b>例如:</b><code>"cpu"</code>、<code>"gpu"</code>、<code>"npu"</code>、<code>"gpu:0"</code>、<code>"gpu:0,1"</code>。<br/>
如指定多个设备,将进行并行推理。<br/>
默认情况下,优先使用 GPU 0;若不可用则使用 CPU。
Expand All @@ -162,13 +167,15 @@ for res in output:
</tr>
<tr>
<td><code>enable_hpi</code></td>
<td>是否启用高性能推理。</td>
<td><b>含义:</b>是否启用高性能推理。</td>
<td><code>bool</code></td>
<td><code>False</code></td>
</tr>
<tr>
<td><code>use_tensorrt</code></td>
<td>是否启用 Paddle Inference 的 TensorRT 子图引擎。如果模型不支持通过 TensorRT 加速,即使设置了此标志,也不会使用加速。<br/>
<td><b>含义:</b>是否启用 Paddle Inference 的 TensorRT 子图引擎。<br/>
<b>说明:</b>
如果模型不支持通过 TensorRT 加速,即使设置了此标志,也不会使用加速。<br/>
对于 CUDA 11.8 版本的飞桨,兼容的 TensorRT 版本为 8.x(x>=6),建议安装 TensorRT 8.6.1.6。<br/>

</td>
Expand All @@ -177,36 +184,40 @@ for res in output:
</tr>
<tr>
<td><code>precision</code></td>
<td>当使用 Paddle Inference 的 TensorRT 子图引擎时设置的计算精度。<br/><b>可选项:</b><code>"fp32"</code>、<code>"fp16"</code>。</td>
<td><b>含义:</b>当使用 Paddle Inference 的 TensorRT 子图引擎时设置的计算精度。<br/>
<b>说明:</b>
<b>例如:</b><code>"fp32"</code>、<code>"fp16"</code>。</td>
<td><code>str</code></td>
<td><code>"fp32"</code></td>
</tr>
<tr>
<td><code>enable_mkldnn</code></td>
<td>
是否启用 MKL-DNN 加速推理。如果 MKL-DNN 不可用或模型不支持通过 MKL-DNN 加速,即使设置了此标志,也不会使用加速。<br/>
<b>含义:</b>是否启用 MKL-DNN 加速推理。<br/>
<b>说明:</b>
如果 MKL-DNN 不可用或模型不支持通过 MKL-DNN 加速,即使设置了此标志,也不会使用加速。<br/>
</td>
<td><code>bool</code></td>
<td><code>True</code></td>
</tr>
<tr>
<td><code>mkldnn_cache_capacity</code></td>
<td>
MKL-DNN 缓存容量。
<b>含义:</b>MKL-DNN 缓存容量。
</td>
<td><code>int</code></td>
<td><code>10</code></td>
</tr>
<tr>
<td><code>cpu_threads</code></td>
<td>在 CPU 上推理时使用的线程数量。</td>
<td><b>含义:</b>在 CPU 上推理时使用的线程数量。</td>
<td><code>int|None</code></td>
<td><code>10</code></td>
</tr>
</tbody>
</table>

* 调用文档图像方向分类模型的 `predict()` 方法进行推理预测,该方法会返回一个结果列表。另外,本模块还提供了 `predict_iter()` 方法。两者在参数接受和结果返回方面是完全一致的,区别在于 `predict_iter()` 返回的是一个 `generator`,能够逐步处理和获取预测结果,适合处理大型数据集或希望节省内存的场景。可以根据实际需求选择使用这两种方法中的任意一种。`predict()` 方法参数有 `input``batch_size`,具体说明如下:
* 调用文档图像方向分类模型的 <code>predict()</code> 方法进行推理预测,该方法会返回一个结果列表。另外,本模块还提供了 <code>predict_iter()</code> 方法。两者在参数接受和结果返回方面是完全一致的,区别在于 <code>predict_iter()</code> 返回的是一个 <code>generator</code>,能够逐步处理和获取预测结果,适合处理大型数据集或希望节省内存的场景。可以根据实际需求选择使用这两种方法中的任意一种。<code>predict()</code> 方法参数有 <code>input</code><code>batch_size</code>,具体说明如下:

<table>
<thead>
Expand All @@ -219,10 +230,13 @@ MKL-DNN 缓存容量。
</thead>
<tr>
<td><code>input</code></td>
<td>待预测数据,支持多种输入类型,必填。
<td><b>含义:</b>待预测数据,支持多种输入类型,必填。<br/>
<b>说明:</b>
<ul>
<li><b>Python Var</b>:如 <code>numpy.ndarray</code> 表示的图像数据</li>
<li><b>str</b>:如图像文件或者PDF文件的本地路径:<code>/root/data/img.jpg</code>;<b>如URL链接</b>,如图像文件或PDF文件的网络URL:<a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/img_rot180_demo.jpg">示例</a>;<b>如本地目录</b>,该目录下需包含待预测图像,如本地路径:<code>/root/data/</code>(当前不支持目录中包含PDF文件的预测,PDF文件需要指定到具体文件路径)</li>
<li><b>str</b>:如图像文件或者PDF文件的本地路径:<code>/root/data/img.jpg</code>;
<b>如URL链接</b>,如图像文件或PDF文件的网络URL:<a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/img_rot180_demo.jpg">示例</a>;
<b>如本地目录</b>,该目录下需包含待预测图像,如本地路径:<code>/root/data/</code>(当前不支持目录中包含PDF文件的预测,PDF文件需要指定到具体文件路径)</li>
<li><b>list</b>:列表元素需为上述类型数据,如<code>[numpy.ndarray, numpy.ndarray]</code>,<code>["/root/data/img1.jpg", "/root/data/img2.jpg"]</code>,<code>["/root/data1", "/root/data2"]</code></li>
</ul>
</td>
Expand All @@ -231,13 +245,15 @@ MKL-DNN 缓存容量。
</tr>
<tr>
<td><code>batch_size</code></td>
<td>批大小,可设置为任意正整数。</td>
<td><b>含义:</b>批大小。<br/>
<b>说明:</b>
可设置为任意正整数。</td>
<td><code>int</code></td>
<td>1</td>
</tr>
</table>

* 对预测结果进行处理,每个样本的预测结果均为对应的Result对象,且支持打印、保存为图片、保存为`json`文件的操作:
* 对预测结果进行处理,每个样本的预测结果均为对应的Result对象,且支持打印、保存为图片、保存为<code>json</code>文件的操作:

<table>
<thead>
Expand Down
32 changes: 21 additions & 11 deletions docs/version3.x/module_usage/doc_vlm.md
Original file line number Diff line number Diff line change
Expand Up @@ -74,9 +74,12 @@ for res in results:
{'res': {'image': 'medal_table.png', 'query': '识别这份表格的内容, 以markdown格式输出', 'result': '| 名次 | 国家/地区 | 金牌 | 银牌 | 铜牌 | 奖牌总数 |\n| --- | --- | --- | --- | --- | --- |\n| 1 | 中国(CHN) | 48 | 22 | 30 | 100 |\n| 2 | 美国(USA) | 36 | 39 | 37 | 112 |\n| 3 | 俄罗斯(RUS) | 24 | 13 | 23 | 60 |\n| 4 | 英国(GBR) | 19 | 13 | 19 | 51 |\n| 5 | 德国(GER) | 16 | 11 | 14 | 41 |\n| 6 | 澳大利亚(AUS) | 14 | 15 | 17 | 46 |\n| 7 | 韩国(KOR) | 13 | 11 | 8 | 32 |\n| 8 | 日本(JPN) | 9 | 8 | 8 | 25 |\n| 9 | 意大利(ITA) | 8 | 9 | 10 | 27 |\n| 10 | 法国(FRA) | 7 | 16 | 20 | 43 |\n| 11 | 荷兰(NED) | 7 | 5 | 4 | 16 |\n| 12 | 乌克兰(UKR) | 7 | 4 | 11 | 22 |\n| 13 | 肯尼亚(KEN) | 6 | 4 | 6 | 16 |\n| 14 | 西班牙(ESP) | 5 | 11 | 3 | 19 |\n| 15 | 牙买加(JAM) | 5 | 4 | 2 | 11 |\n'}}
```
运行结果参数含义如下:
- `image`: 表示输入待预测图像的路径
- `query`: 表述输入待预测的文本信息
- `result`: 模型预测的结果信息
<ul>
<li><b>image</b>: 表示输入待预测图像的路径</li>
<li><b>query</b>: 表述输入待预测的文本信息</li>
<li><b>result</b>: 模型预测的结果信息</li>
</ul>


预测结果打印可视化如下:

Expand All @@ -103,7 +106,7 @@ for res in results:

相关方法、参数等说明如下:

* `DocVLM`实例化文档类视觉语言模型(此处以`PP-DocBee-2B`为例),具体说明如下:
* <code>DocVLM</code>实例化文档类视觉语言模型(此处以<code>PP-DocBee-2B</code>为例),具体说明如下:
<table>
<thead>
<tr>
Expand All @@ -116,19 +119,22 @@ for res in results:
<tbody>
<tr>
<td><code>model_name</code></td>
<td>>模型名称。如果设置为<code>None</code>,则使用<code>PP-DocBee-2B</code>。</td>
<td><b>含义:</b>模型名称。<br/>
<b>说明:</b>
如果设置为<code>None</code>,则使用<code>PP-DocBee-2B</code>。</td>
<td><code>str|None</code></td>
<td><code>None</code></td>
</tr>
<tr>
<td><code>model_dir</code></td>
<td>模型存储路径。</td>
<td><b>含义:</b>模型存储路径。</td>
<td><code>str|None</code></td>
<td><code>None</code></td>
</tr>
<tr>
<td><code>device</code></td>
<td>用于推理的设备。<br/>
<td><b>含义:</b>用于推理的设备。<br/>
<b>说明:</b>
<b>例如:</b><code>"cpu"</code>、<code>"gpu"</code>、<code>"npu"</code>、<code>"gpu:0"</code></code>。
默认情况下,优先使用 GPU 0;若不可用则使用 CPU。
</td>
Expand All @@ -138,7 +144,7 @@ for res in results:
</tbody>
</table>

* 调用文档类视觉语言模型的 `predict()` 方法进行推理预测,该方法会返回一个结果列表。另外,本模块还提供了 `predict_iter()` 方法。两者在参数接受和结果返回方面是完全一致的,区别在于 `predict_iter()` 返回的是一个 `generator`,能够逐步处理和获取预测结果,适合处理大型数据集或希望节省内存的场景。可以根据实际需求选择使用这两种方法中的任意一种。`predict()` 方法参数有 `input` 、 `batch_size`,具体说明如下:
* 调用文档类视觉语言模型的 <code>predict()</code> 方法进行推理预测,该方法会返回一个结果列表。另外,本模块还提供了 <code>predict_iter()</code> 方法。两者在参数接受和结果返回方面是完全一致的,区别在于 <code>predict_iter()</code> 返回的是一个 <code>generator</code>,能够逐步处理和获取预测结果,适合处理大型数据集或希望节省内存的场景。可以根据实际需求选择使用这两种方法中的任意一种。<code>predict()</code> 方法参数有 <code>input</code> 和 <code>batch_size</code>,具体说明如下:

<table>
<thead>
Expand All @@ -151,21 +157,25 @@ for res in results:
</thead>
<tr>
<td><code>input</code></td>
<td>待预测数据,必填。由于多模态模型对输入要求不同,请根据具体模型设定输入格式。<br/>
<td><b>含义:</b>待预测数据,必填。<br/>
<b>说明:</b>
由于多模态模型对输入要求不同,请根据具体模型设定输入格式。<br/>
例如:对于 PP-DocBee 系列模型,输入形式应为:<code>{'image': image_path, 'query': query_text}</code>
</td>
<td><code>dict</code></td>
<td>无</td>
</tr>
<tr>
<td><code>batch_size</code></td>
<td>批大小,可设置为任意正整数。</td>
<td><b>含义:</b>批大小。<br/>
<b>说明:</b>
可设置为任意正整数。</td>
<td><code>int</code></td>
<td>1</td>
</tr>
</table>

* 对预测结果进行处理,每个样本的预测结果均为对应的Result对象,且支持打印、保存为`json`文件的操作:
* 对预测结果进行处理,每个样本的预测结果均为对应的Result对象,且支持打印、保存为<code>json</code>文件的操作:

<table>
<thead>
Expand Down
Loading