如何给nutch .8加中文分词？ _ 路由器设置|192.168.1.1|无线路由器设置|192.168.0.1

如何给nutch .8加中文分词？

2016-09-03 19:13:18 来源:www.45fan.com 【大中小】

如何给nutch .8加中文分词？

原来nutch 的分词是用javacc的，它是一个很高效的东东哦。

对于中日韩的文字是用单字分词，

所以对中文要分词，思路当然是把中文拿出来单独对待了。

所以要对analysis.jj进行修改。

// chinese, japanese and korean characters

| <SIGRAM: <OTHER_CJK>>

| <CNWORD: (<CHINESE>)+>//chinese word

// irregular words

| <#IRREGULAR_WORD: (<C_PLUS_PLUS>|<C_SHARP>)>

| <#C_PLUS_PLUS: ("C"|"c") "++" >

| <#C_SHARP: ("C"|"c") "#" >

// query syntax characters

| <PLUS: "+" >

| <MINUS: "-" >

| <QUOTE: "/"" >

| <COLON: ":" >

| <SLASH: "/" >

| <DOT: "." >

| <ATSIGN: "@" >

| <APOSTROPHE: "'" >

| <WHITE: ~[] > // treat unrecognized chars

// as whitespace

// primitive, non-token patterns

| <#WORD_PUNCT: ("_"|"&")> // allowed anywhere in words

| < #LETTER: // alphabets

[

"/u0041"-"/u005a",

"/u0061"-"/u007a",

"/u00c0"-"/u00d6",

"/u00d8"-"/u00f6",

"/u00f8"-"/u00ff",

"/u0100"-"/u1fff"

]

| <#OTHER_CJK: //japanese and korean characters // non-alphabets

[

"/u3040"-"/u318f",

"/u3300"-"/u337f",

"/u3400"-"/u3d2d",

"/uf900"-"/ufaff"

]

| <#CHINESE://chinese characters

[

"/u4e00"-"/u9fff"

]

| <#DIGIT: // unicode digits

[

"/u0030"-"/u0039",

"/u0660"-"/u0669",

"/u06f0"-"/u06f9",

"/u0966"-"/u096f",

"/u09e6"-"/u09ef",

"/u0a66"-"/u0a6f",

"/u0ae6"-"/u0aef",

"/u0b66"-"/u0b6f",

"/u0be7"-"/u0bef",

"/u0c66"-"/u0c6f",

"/u0ce6"-"/u0cef",

"/u0d66"-"/u0d6f",

"/u0e50"-"/u0e59",

"/u0ed0"-"/u0ed9",

"/u1040"-"/u1049"

]

}

这样，就把中文单独拿出来处理了，

后面就是要用自己的中文分词方法对它进行处理了。

处理分词是nutchAnalysis.java中的parse()方法，改它就可以了。

本文地址：http://www.45fan.com/dnjc/71908.html

Tags：中文原来 Nutch

编辑：路饭网

Win10移动版更新14328修复设置中文显示通	如何下载Win10 Redstone预览版14271自制
怎么样下载Win10 RS1预览版14267自制中文	如何下载Win10预览版10565自制中文ISO系
怎么样下载Win10一周年更新预览版14361快	Office2016中文版官方价格的详细介绍
在word文档中打出中文省略号的步骤	在word表格中文字设置垂直对齐方式的步骤
如何升级Win10更新版后回滚到原来电脑系	解决VS2013中文注释下面总出现红线的方法

45fan.com - 路饭网

如何给nutch .8加中文分词？

Tags： 中文 原来 Nutch

Tags：中文原来 Nutch