本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
用于文本数据的内置 SageMaker AI 算法
SageMaker 人工智能提供的算法专为分析自然语言处理、文档分类或摘要、主题建模或分类以及语言转录或翻译中使用的文本文档而量身定制。
-
BlazingText 算法 – Word2vec 和文本分类算法的高度优化的实施,可轻松扩展到大型数据集。它对于许多下游自然语言处理 (NLP) 任务都很有用。
-
潜在狄利克雷分配 (LDA) 算法 – 此算法适用于确定一组文档中的主题。它是一种自主算法,这意味着在训练期间不适用包含答案的示例数据。
-
神经主题模型 (NTM) 算法 – 另一种无监督技术,它使用神经网络方法来确定一组文档中的主题。
-
Object2Vec 算法 – 一种通用神经嵌入算法,可用于推荐系统、文档分类和句子嵌入。
-
Sequence-to-Sequence 算法 – 此有监督算法通常用于神经网络机器翻译。
-
文本分类- TensorFlow –一种支持迁移学习的有监督算法,通过所提供的预训练模型进行文本分类。
算法名称 | 渠道名称 | 训练输入模式 | 文件类型 | 实例类 | 可并行化 |
---|---|---|---|---|---|
BlazingText | 训练 | 文件或管道 | 文本文件(每行一句,带空格分隔的令牌) | GPU(仅单个实例) 或 CPU | 否 |
LDA | 训练和 (可选) 测试 | 文件或管道 | recordIO-protobuf 或 CSV | CPU(仅单个实例) | 否 |
神经主题模型 | 训练和 (可选) 验证和/或测试 | 文件或管道 | recordIO-protobuf 或 CSV | GPU 或 CPU | 是 |
Object2Vec | 训练和 (可选) 验证和/或测试 | 文件 | JSON 行 | GPU 或 CPU(仅单个实例) | 否 |
Seq2Seq 建模 | 训练、验证和 vocab | 文件 | recordIO-protobuf | GPU(仅单个实例) | 否 |
文本分类- TensorFlow | 训练和验证 | 文件 | CSV | CPU 或 GPU | 是(仅在单个实例 GPUs 上跨多个实例) |