

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 用于文本数据的内置 SageMaker AI 算法
<a name="algorithms-text"></a>

SageMaker 人工智能提供的算法专为分析自然语言处理、文档分类或摘要、主题建模或分类以及语言转录或翻译中使用的文本文档而量身定制。
+ [BlazingText 算法](blazingtext.md) – Word2vec 和文本分类算法的高度优化的实施，可轻松扩展到大型数据集。它对于许多下游自然语言处理 (NLP) 任务都很有用。
+ [潜在狄利克雷分配 (LDA) 算法](lda.md) – 此算法适用于确定一组文档中的主题。它是一种*自主算法*，这意味着在训练期间不适用包含答案的示例数据。
+ [神经主题模型 (NTM) 算法](ntm.md) – 另一种无监督技术，它使用神经网络方法来确定一组文档中的主题。
+ [Object2Vec 算法](object2vec.md) – 一种通用神经嵌入算法，可用于推荐系统、文档分类和句子嵌入。
+ [Sequence-to-Sequence 算法](seq-2-seq.md) – 此有监督算法通常用于神经网络机器翻译。
+ [文本分类- TensorFlow](text-classification-tensorflow.md) –一种支持迁移学习的有监督算法，通过所提供的预训练模型进行文本分类。


| 算法名称 | 渠道名称 | 训练输入模式 | 文件类型 | 实例类 | 可并行化 | 
| --- | --- | --- | --- | --- | --- | 
| BlazingText | 训练 | 文件或管道 | 文本文件（每行一句，带空格分隔的令牌）  | GPU（仅单个实例） 或 CPU | 否 | 
| LDA | 训练和 (可选) 测试 | 文件或管道 | recordIO-protobuf 或 CSV | CPU（仅单个实例） | 否 | 
| 神经主题模型 | 训练和 (可选) 验证和/或测试 | 文件或管道 | recordIO-protobuf 或 CSV | GPU 或 CPU | 是 | 
| Object2Vec | 训练和 (可选) 验证和/或测试 | 文件 | JSON 行  | GPU 或 CPU（仅单个实例） | 否 | 
| Seq2Seq 建模 | 训练、验证和 vocab | 文件 | recordIO-protobuf | GPU（仅单个实例） | 否 | 
| 文本分类- TensorFlow | 训练和验证 | 文件 | CSV | CPU 或 GPU | 是（仅在单个实例 GPUs 上跨多个实例） | 