今晚调试图书编目的那个PHP项目(其实打心底说,过去大半年了,回头看这个东西,觉得真的很没价值,根本称不上项目),国图改版了,不过对我来说,改恶心了,首先,HTML更加不规范,重复的ID都出现了,注释很凌乱,我要写XPath的时候,真的好难写出精致的高效版本,就随意将就了一个中间断点特征点。

轮到解析的时候,这次主要页面是通过meta元素的HTML传过来的,然后用innerHTML这个属性修改页面实现的,诶,要传数据居然这么恶心,我很无奈,传的HTML代码居然也只是局部,我更无奈。

自己加上html,head,body这些,发现还是不行,乱码,我DOMDocument这个对象创建时,已经指定了utf8编码了,而且,我确定传过来的数据也是utf8的,但是还是乱码。

一次次对比实验后,发现DOMDocument这个东西居然还判断HTML的Meta标签做判断的,加上下面的,马上完事:

<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=UTF-8">

诶,HTML,还是严格执行标准的好,国图的那群程序员真的仲么了……