tech点滴2011

segment 2011-10-31

先试试专利可视化检索有没有什么问题，ff下面没有问题，但不知道为什么ie下始终有问题：

1. src="loadflash.jsp?para=<s:property value="para"/>&type=<s:property value="type"/>&types=<s:property value="types"/>&searchinput=<s:property value="searchinput"/>&startDate1=<s:property value="startDate1"/>&endDate1=<s:property value="endDate1"/>“

2. src="loadflash.jsp?type=<s:property value="type"/>&types=<s:property value="types"/>&searchinput=<s:property value="searchinput"/>&startDate1=<s:property value="startDate1"/>&endDate1=<s:property value="endDate1"/>&para=<s:property value="para"/>”

这两个语句有什么不同呢？仅仅是para参数在语句开始或者结尾不同而已，但是当para参数没有值的时候，endDate1在ie下面传到后台就会有问题，所以，最好把这种数字型的参数放到最后，也就是语句1中的写法。看不懂ie为什么会有这种问题。

segment 2011-10-28

这两天在研究如何为系统添加新的pdf分析与抽取系统，因为目前的方法抽取质量不高，但是我想了一下，反正他们是人工审核，也就是每篇文献都需要人工校验，那我如果再做一个需要人工审核的程序有什么好处呢？无非是界面更直观，审核速度更快而已，还是不能够实现实实在在的pdf自动并且正确地分析与抽取。

这两天也在为重要会议系统添加新的标引流程，现在面临的问题是：

技术路线不明确：知识组织体系的存在形式？如果是SKOS，那么是否采用KEA？如果不是SKOS，那怎么办？需要把知识组织体系转换成SKOS么？
所以程序也没法继续写下去，现在的想法是研究一下kEA，毕竟这个程序比较小，先看看机器学习算法。

segment 2011-06-15

TechMining:

这是由porter创建的一个新领域，

主要的基础工具软件：vantagePoint

主要的目标：turn information into knowledge，这里的信息指的不是非结构化文本之类非结构化的数据，而是指的是结构化的数据

segment 2011-06-10

最近发现一个问题：替换jsp后，甚至删除jsp后，只要之前访问过该jsp，我们还会继续访问下去，这是为什么？

有可能的原因：我的机器访问过arp，时间被修改过，所以jsp文件不一致？

segment 2011-05-31

2008连接远程桌面提示：由于数据加密错误，。。。。这些，原因很简单

居然是不能装第三方防火墙，例如symtec endpoint。

segment 2011-05-27

问题：在PrjStruts2可视化项目中，打开词汇树applet，如果打开了一次applet，第二次打开applet的时候，发现有些组件重复出现了一次。

解决：是因为这些组件被设置了static，去掉static就没有了问题。

segment 2011-05-31

安装hp ml370g5阵列服务器和storageworks msa 1000阵列的过程：

1.安装2003英文版

首先插入smartstart32位光盘，（还有一张smartstart64位的光盘），按照步骤提示，插入系统盘，这次插入的英文版，导致需要安装mui多语言包，但是没地方能够快速下载，另外fibre控制器驱动找不到；

2。安装2003中文版

开始步骤一样，没有语言问题，但是fibre控制器驱动找不到；

3.安装2008

开始步骤一样，只是需要重启几次，速度比较慢，最后fibre驱动装好了，没有语言问题，但是依然找不到阵列，原来是光纤线路接反了，后来依然找不到，于是需要找一个能够操作阵列hp软件，后来找到了，只有5m，开始删除已有的raid分区，重做raid，每个分区最多只有2t。

具体的下载了一个doc文档，比较详细，这个过程太漫长了。

本来按照上面做的已经可以了，阵列服务器上面的磁盘管理器中已经能够找到相关分区，但是不能够加载到阵列服务器上。

问题是我在磁盘管理器上面没有进行正确的操作，需要在里面点击右键，然后联机，然后才能加载！这个问题居然我没有找到原因，我还是计算机专业的么

这个专业跟其它专业最大的区别就是，我们能够做一些简单的操作，完成别人认为复杂的事情。

segment 2011-05-13

今天遇到jsp/servlet中文乱码的问题：

1.jsp：<%=URLEncoder.encode("核裂变","UTF-8") %>

2.servlet：URLDecoder.decode(request.getParameter("leixinCH"),"UTF-8");

3.另外在serve.xml中设置uricoding = utf-8，

上面三个方法应该就算是解决了所有的乱码问题

但是设置第三个以后，如果参数中只有一个参数，基本上不用后台转码就是正确的，但如果有两个参数，尤其是一个中文，一个英文，对于ie8以外的浏览器还可以，对于ie8就不行，也不是不行，有的行，有的不行

最好还是把所有有可能出现问题的地方全部用上面三个步骤加以代替。

segment 2011-05-08

今天理解了sqlserver数据库：

视图最简单，按照向导走就行了；

索引呢，不能使用like'%**%'这种，所建字段不能超过800字节，这是缺点；

全文索引比较好，速度比较快，但是还没有达到很大提升的地步。

segment 2011-05-08

processing：一种java的图形图像处理语言和环境，也就是一个类库，有助于创建图像，动画和交互等可视化效果。

LingPipe是一个自然语言处理的Java开源工具包。

segment 2011-05-08

lucence in action开源这种东西，入门都很容易，关键是如何活学活用啊！

系统这几天内存使用比较大，后来把两个进程结束之后，并改为了手动启动，少了500m内存，看来oracle耗内存真是名不虚传啊：

OracleServiceXE

OracleXETNSListener

这是由于本机需要调试的程序，所以不得不装了一个oracle expree，并且配置了pl/sql，用于图形化连接orcale数据库。

segment 2011-05-08

这两天主要是在从46上面导出相关数据，然后恢复46的2003系统：

1.导出：

导出操作看似比较简单，其实经常是完了这，忘了那。我觉得应该这么做，算是best practice：系统盘主要是要导出sqlserver2000和mysql的数据库，其它盘最好是全部导出，不然，经常忘加了，比如程序，除了workspace里面的程序，还有tomcat部署好了的程序，虽然有点重复，但是这有时候很重要。

2.安装2003，使用的dell服务器，正确的安装方法是，首先使用dell引导盘，设置一些服务器和操作系统参数，按照提示，使用2003盘

3.主要是恢复了Fedora和自建的两个系统，安装jdk，升级jre，配置环境变量，不需要配置catalina_home,tomcat启动程序会自动判断，如果找不到这个路径，则猜测一个路径，一般没有问题。分别配置两个tomcat的端口，安装sqlserver，加载数据，安装myeclipse，加载程序。

segment 2011-05-08

我在fedora系统中看了一下，发现admin和manager文件夹不在webapp下面，而是在tomcat/server/webapps下面，这是跟tomcat6的区别，fedora2.2采用的是tomcat5.0.14，因为之前都是用的解压版，里面的tomcat-user.xml中默认都没有admin/manager这两个控制权限，需要手动在里面添加，才能够使用项目的管理控制台，如下所示：

因此发现这个以后，我除了检查tomcat-user.xml文件有没有上面的设置，干脆把webapp里面的admin目录全部删除了，也许这样能够解决这个问题；

segment 2011-05-08

两个tomcat同时运行，46，jre6，都在服务中进行了注册，可以设置为自动启动；

需要在server.xml中更改相应端口，例如，把8005更改成8006， 8009更改成8099

1.Fedora：tomcat5，端口8080，

2.专题库和可视化：tomcat6，端口80，由于本机的tomcat是8080端口，因此，applet和swf两种文件都需要在里面设置为80端口，

主要迁移需要注意的地方是，从本机到服务器，

磁盘变化，目前可以把盘符写在配置文件中，properties文件中。
IP地址变化
还需要建立索引文件夹，uploadfiles.swf和MyTree.jar文件需要重新生成，两个文件都需要重新设置ip地址和端口；

segment 2011-05-08

前天花了一些时间调试preservation系统，对整个系统有了一个很好的认知，基本上恢复了去年的认知水平;

重新对系统进行了部署，虽然对摄入流程不熟悉，但是无关紧要，我们的主要任务是使用摄入后的数据，进行rebuild，恢复原来的系统，当然人家系统比较好的地方就是基本上需要写死的地方都放在数据库中，这是我不看源码就能实现完整迁移的前提；

当然Fedora系统本身设计很好，我们这里不需要再进行一次摄入，这个过程肯定比较耗时间，而且错误也无法预知，但是fedora提供了使用摄入的数据，进行rebuild的功能，能够把这些数据重新导入到Fedora仓储中，也就是能够被Fedora进行管理，其实主要是把这些数据与mysql中的两个Fedora必需的数据库建立数据关联，也就是rebuild的重建索引的过程；

今后进行备份的时候，只需要备份摄入后的数据就可以了；

当然我也对Fedora摄入后的数据有了认识，知道了一个pdf在Fedora中是以什么形式进行保存的：3个xml元数据文件和1个源pdf文件(一般说来是pdf)；

segment 2011-05-08

昨天花了一段时间调试pdfbox，会议系统以前pdfbox太老了，对于有的pdf根本无法理解，换上最新版本的pdfbox1,5以后，同样换上最新的fontbox1.5，jembox1.5(这个包我不知道有什么用)以后，对源程序重新进行了重载之后，解决了这个问题。我发现我确实很不错，两个pdfbox的pdftextStripper区别很大，特别是输出文本的部分，pdfbox0.7用的是flushText()方法，而pdfbox1.5用的是writePage()方法，两个方法中代码差别很多，但是还是有一些共同点的，不然我也不可能这么快就解决了问题，当然重载的时候参考了以前的代码，主要是在输出文本的同时把文本的字体，位置这些分析pdf需要用到的内容一起输出来，存放到一个这些信息的pojo类中，最后放到pojo类的list中。

segment 2011-04-14

今天应该详细记录一个关于java的问题，不，是几个。

在web中部署java应用程序有两种方式：一是jnlp，二是使用<applet>标签

问题：

一，在使用jnlp的过程中，以前从来没有遇到这种问题，在jsp中打开一次applet以后，如果不在缓存中清除该applet，再也不要想第二次打开这个applet，错误类型中有update错误？当然也有后面提到jre的一个bug，关于jeditorpane的settext()方法。

二，为什么使用新的jre，问题却很多，我最开始以为是我的电脑的jre和eclipse中使用的jre对不上，然后都更新到最新的jre了，发现还是出现前面的问题。

现在我重新运行了一下我的两个applet，其中一个applet是我写的一个简单applet，恰好也使用了jeditorpane，用来测试的，另外一个是可视化效果的applet，现在都没有问题了，我是怎么解决的呢？

当我google这个的时候：applet at javax.swing.text.html.parser.Parser.errorContext

在stackoverflow中找到了答案：http://stackoverflow.com/questions/4139152/applet-crashes-when-started-for-second-time-error-log-provided 这个链接没有解决我的问题，但是把我带入到了关于我遇到的问题的讨论中，正式这个讨论，在sun的bug list中有了这个bug，同样这个链接中也有这个问题：http://stackoverflow.com/questions/4223761/jeditorpane-setpage-no-more-work-properly-with-java-1-6-22

但是，所有的结果都在http://bugs.sun.com/bugdatabase/view_bug.do?bug_id=6993691里面，

解决方法中提到workaround，通过google，我也理解了workaround的含义： Bug不能解决，但能避开问题的替代方法，称之Workaround。

然后再buglist中好像有两个workaround，我采用的是在applet代码开始的时候，加上ParserDelegator workaround = new ParserDelegator();

通过这次发现问题解决问题，我对java编码过程中的解决问题流程又有了一个新的认知。

segment 2011-04-04

MyEclipse tips：在我在文件之间切换的时候，左边的Package Explorer的树形文件随着我点选的文件的改变而改变选中；

方法：Package Explorer中有个Link with Editor选项，把它选上就可以了。

segment 2011-03-31

MyEclipse tips：在myeclipse中居然发现了一个现象：无论怎么修改一个程序，输出都是第一次运行时的输出，我以为没有自动编译，结果不是，当我把项目中的错误jar包删除，并以正确位置的jar包替代之以后，程序终于可以正常运行了，这是一个什么现象呢？

Prefuse表达式语言的简介

Prefuse表达式语言提供了一个方便的方式对Prefuse数据结构中的数据进行操作，比如，这个表达式语言可以用于创建Predicate实例来查询或者过滤table或者graph，或者在一个数据集上创建任意的表达式来生成新的，派生的数据域，用来进行接下来的数据处理；

segment 2011-03-28

最近在研究prefuse的时候，遇到一个词：Library routines，翻译为库子程序，目前来说我的理解是：在内核之外的不是必需的程序。也就是说这些程序是一些工具程序，当我们基于这个内核编码的时候可能会用到的程序，当然我们也可以自己来写。

segment 2011-03-30

在list遍历的时候如果要删除该list中的对象，需要用iterator进行遍历。

否则会抛出异常。具体解决方案google就知了。

segment 2011-04-13

在写ssh程序的时候，数据库中增加了一个表，当然程序中也需要进行相应的增加，但是却一直报空指针错误：

当时已作：

model层添加；

dao和service层分别添加；

spring配置文件中添加；

最后是action类添加程序；

原因：在action中的service实例必须添加相应的get/set程序；

NullPointerException说直白点，就是你对为NULL的参数没有判断就直接做一些操作，如：get(),set(),save()......

所以在ssh中，最重要的是注入，如何应对由注入产生的问题：get/set，这是最重要的地方。

segment 2011-02-28

要清除applet，必须关掉浏览器，然后在控制面板java中删除。

segment 2011-02-28

dbf导入数据到sqlserver2000：

具体参考：http://topic.csdn.net/u/20091001/17/8cc25eee-6a93-40af-9741-78179d20f66c.html

最开始使用dbase，发现能够找到库，但是导不出数据，只好先下载dbf驱动：http://msdn.microsoft.com/en-us/vfoxpro/bb190233

然后在odbc数据源中建立一个dbf数据源，选择相关数据文件，

最后在sqlserver2000导入导出中进行数据导入，这次能够找到库，也能够导出数据。

segment 2011-02-14

下面介绍了三种表单重置的方法：

jquery select下拉框的处理：

$("#selct")[0].selectedIndex = 0;

上面这种重置select 的方法只适合于对下拉框一个一个地重置，而不能够将整个页面全部重置；

$(":input[type=text]").val("");

上面这种方法可以重置所有的input输入框；

要重置所有的表单唯有在form下，通过document.forms[0].reset();这种方式；

segment 2010-12-30

cvs安装设置更简单，直接把cvs程序装上，设置目录，其他的就是客户端设置的事情了。

cvs的用户名和密码就是服务器的用户名和密码。

segment 2010-12-30

f-secure ssh的设置：

设置端口

设置HOME=E:\workspace

segment 2010-12-30

2003防火墙的设置：

1.在我的电脑里面打开；

2.在服务里面打开terminal service服务。

segment 2010-12-29

安装discuz的时候，提示mysql_connect有错误，原来是系统找不到ext目录下的mysql库，解决方法就是在path下面添加php和ext目录路径，然后重启电脑，使得环境变量配置生效，要么就是在配置文件里更改extention_dir什么的，把路径写死，而不是用./。

segment 2010-12-29

The Essentials Package:

不包含 embedded server and benchmark suite，有自动安装程序和配置向导，没有MySQL Documentation。

The Complete Package:

包含 embedded server and benchmark suite，有自动安装程序和配置向导，有MySQL Documentation。

The Noinstall Archive:

包含 embedded server and benchmark suite，没有自动安装程序和配置向导，有MySQL Documentation。

segment 2010-12-28

apache,php安装配置：

apache-2.2和php-5.2.13解压版：

主要是第一个链接

apache版本不一样，loadmodule的模块也不一样；

segment 2010-12-28

ssh项目里面，数据库sqlserver2000，没有插网线，提示如下：

ERROR - Cannot create PoolableConnectionFactory (Network error IOException: No route to host: connect)

原因好像是quartz启动需要数据库连接，hibernate启动也需要数据库连接，但是按照数据库连接池中的语法，没有网络是访问不了该数据库的？

segment 2010-11-17

JAVA_OPTS以前的设置：

-Djavax.net.ssl.trustStore=%FEDORA_HOME%\server\truststore -Djavax.net.ssl.trustStorePassword=tomcat

后来set JAVA_OPTS= -Xms32m -Xmx512m

segment 2010-10-27

使用java把office文档转成pdf，调研了很多种方法：

1.辅助使用openoffice

OpenOffice.org具有一个鲜为人知的特性就是其能够作为一个服务来运行，而这种能力具有一定的妙用。举例来说，你可以把 openoffice.og变成一个转换引擎，利用这种转换引擎你可以通过网络接口或命令行工具对文件的格式进行转换，JODConverter可以帮助你实现OpenOffice.org的这种文件转换功能。

为了将OpenOffice.org作为一个转换引擎，你必须以服务的方式将它启动，使它在某个特定的端口监听连接，在Linux平台你可以用如下的命令启动：

soffice -headless -accept=”socket,port=8100;urp;”

在Windows平台, 使用如下命令：

"C:\Program Files\OpenOffice.org 3\program\soffice.exe" -headless -accept="socket,port=8100;urp;"

JODConverter是基于java，你需要安装1.4或更高版本的java运行环境。下载最新版本的jodconverter-tomcat-x.x.x.zip，解压到某个目录，就可以启动 JODConverter

sh jodconverter-tomcat-2.1.1/bin/startup.sh

在浏览器打开http://localhost:8080/converter，你就可以看见一个简单的Web界面，选中需要转换的文件并确定格式，点击按钮就可以转换。也可以通过命令行对文件进行转换，如：

java -jar jodconverter-2.1.1/lib/jodconverter-2.1.1.jar loremipsum.odt loremipsum.pdf

2.使用itext，

3.使用jcom，使用jcom调用acrobat，

这是两篇关于pdfmaker的一些进一步开发。

这是office2010的插件：SaveAsPDFandXPS.exe 使您得以在八种 2007 Microsoft Office 程序中导出文件并将其保存为 PDF 和 XPS 格式。在其中某些程序中，还可以利用它发送 PDF 和 XPS格式的电子邮件附件。

关于acrobat pdfmaker虚拟机，网上是这么说的：

For enterprise customers who have not updated to the latest versions of Acrobat 8.x and 9.x, but are updating to Microsoft Office 2010, disable PDFMaker in all Office 2010 applications.

对于Office2010用户，本身已经支持pdf转换，所以不需要pdfmaker了。

acrobat sdk需要acrobat的支持

segment 2010-01-25

mysql数据恢复

1. 将mysql\data文件夹里的cf1,last文件夹（这两个是原来MySQL里的数据库）拷贝进D:\Program Files\MySQL\MySQL Server 5.0\data。连接成功，在Navicat for MySQL里看到数据库cf1和last，但是不能访问，因为数据全为零。明白了原来data里以数据库命名的文件存储的是数据库的表结构，不是元数据。

2.把data文件夹里的ibdata1文件（3.4G大，明显存储了元数据）拷贝到D:\Program Files\MySQL\MySQL Server 5.0\data里，代替原来的ibdata1文件。重启电脑，打开SQLYog，连接成功，数据可以访问操作。

sqlserver数据恢复：

1.data目录下的数据库文件，mdf和ldf

2.在数据库管理器中附加数据库，选中mdf文件。

猜你喜欢