中文文本分类介绍
上个学期,做模式识别的课程设计:中文文本分类。小玩了一下,还不错,打算继续研究一下。
研究NLP的老外们蛮多,咱们自己的语言就得靠咱们自己了。现在学科都是综合性质的,看到有从研究汉语言起步,进而到计算机辅助下研究语言学。觉得一个人能做什么与他的兴趣、水平以及知识结构都有关系。
发现论文水平真是参差不齐,我这次实验就靠着一篇经典文献的指导完成了很大一部分工作。但是确实应该更多的查阅论文,自己的阅读量还不够。做了一个粗糙而简单的实验,不过还是搭起了一个架子,对此,有好的点评,也有坏的点评。
做讨论班报告的时候,发现了自己的很多问题:
1。幻灯片里提到的中文编码,怎么和实验有关了,没有说出来。简言之,了解汉字字符的编码空间,是编程的基矗
2。对于中间的步骤,只是一知半解,没有深入的阅读参考文献。
3。实验结果的评价,不是很好,本来预备做交叉检验的,但是一懒没做,其实很简单的过程,在实验的早期,就应该记着这件事。
整理一下自己的思路,继续开展新的工作。
本文地址:http://www.45fan.com/bcdm/70149.html