Nutch使用随笔内容
前阵子由于项目需要,对开源搜索引擎Nutch做了一些技术研究,随手写了一些笔记,贴出来与大家共享,希望能对搜索感兴趣的同行们有一些帮助。
Nutch是Apache 的二级项目,其底层引擎基于Lucene,(其实都是同一个作者),创建这个项目的主要目的还是想打破目前商业搜索引擎垄断市场的局面。出发点虽然是好的,但想在Internet搜索市场上分一杯羹不仅仅需要好的技术,还需要有雄厚的资金作后盾,像Google这样一次能买几万台PC Server作搜索服务器的厂家毕竟不多;另外,大型搜索引擎用Java开发的不多,仍然还是C/C++这类更接近机器代码的高级语言的天下,毕竟在大型检索中,速度仍然是需要重点考虑的因素。
不过,用Nutch来作Intranet内检索就很不错了,尤其是其插件机制,扩展起来很方便。笔者之前基于Nutch0.7版本改造的企业统一信息检索平台已经在某部委机关内网跑了几个月了,客户反映不错。
刚研究Nutch时,看官方文档说明:如果要在Windows下使用,必须安装 cygwin(Linux模拟环境),感觉太麻烦了,分析了一下其bin目录下的nutch.sh文件,发现其作用无非就是组织输入参数、创建目录等得,最终还是调用某个具体的Java类,我们完全可以抛开其nutch.sh文件,在Windows下自己写.bat文件来运行相应功能实例。
待续..
本文地址:http://www.45fan.com/dnjc/71346.html