seq_2_seq

学习seq to seq 的模型,先学会使用模型,把电信号数据修改成相匹配的格式,喂进模型去。

这是一个汉译英的demo。原始数据:

1
2
3
4
5
6
 inputs    targets
0 Hi. \t嗨。\n
1 Hi. \t你好。\n
2 Run. \t你用跑的。\n
3 Wait! \t等等!\n
4 Hello! \t你好。\n

demo 定义的变量所代表的含义。

input_text len: 1000 type: list print(input_texts[1:5])
[‘Hi.’, ‘Run.’, ‘Wait!’, ‘Hello!’]

output_text len: 1000 type: list print(target_texts[1:5])
[‘\t你好。\n’, ‘\t你用跑的。\n’, ‘\t等等!\n’, ‘\t你好。\n’]

NUM_SAMPLES = 1000 样本的数量

input_characters 英文的总字符, list类型
target_characters 汉语的总字符, list类型
INUPT_LENGTH 30,最长的英语句子,1000个样本中,int类型
OUTPUT_LENGTH 22,最长的中文句子,1000个样本中,int类型
INPUT_FEATURE_LENGTH 73,英文的总字符数,int类型
OUTPUT_FEATURE_LENGTH 2623, 中文的总字符数,int类型