用户语料库多条目添词窗口
|
■语料类别1: 中英文语料间有统一分隔符,且有序分段
|
其它类型语料批输入 |
■语料类别2: 中英文语料前后相连,中间无统一分隔符,如下表所示:
请点击此处:添词入口一
|
■语料类别3: 中英文语料前后相连,中间无统一分隔符,但有序分段:
请点击此处:添词入口二
|
■语料类别4:中英文语料间有统一分隔符,但前后相连,无有序分段,如下表所示:
请点击此处:添词入口四
|
■语料类别5: 中英文语料各自成一段,间隔有序排列,如下表所示:
请点击此处:添词入口五
|
如果语料比较混乱,不能直接进入上述添词入口,还需手工整理,您可以借助本站“中英文自动分隔工具” 或者利用以下的“文本整理工具”进行初级加工: |
■语料类别6: 中英文前后相连没有统一分隔符的语料:
请点击此处:利用“文本拆分工具”将中英文语料用统一分隔符分开.
|
■语料类别7: 摘录自网络的纯中文语料,其后有不正确的段落符或换行符,正确段落前首行缩进,如下表所示:
请点击此处:利用“文本整理工具1”去掉不需要的段落符,保留正确的段落符
|
■语料类别8: 摘录自网络的语料,其中包含有html标记,如下表所示:
请点击此处:利用“文本整理工具2”去掉不需要的html标记,保留纯净的文本
|
■语料类别9: 文本包含有特定段落分隔符,文本中原有的分行符和回车则需要删除,如下表所示(</p>就是段落分隔符):
请点击此处:利用“文本整理工具3”将文本拆分成段落
|
| |