鱼C论坛

 找回密码
 立即注册
查看: 4556|回复: 10

[已解决]Jsoup爬虫中HTML实体字符处理

[复制链接]
发表于 2017-12-14 23:41:15 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 还是鱼头好 于 2017-12-20 17:09 编辑

求教,Java用Jsoup爬取出的网页源码中含有HTML实体字符,如 (空格)等特殊字符,怎么自动做转化成相应的原字符呢。网页的编码格式是utf-8,已经按utf-8的格式取出了,还是不行,请大神指教,谢谢~

补充:了解正则表达式,关键是用正则表达式怎么处理,不知道源网页上会有那些HTML实体,用正则表达式能找到HTML实体字符,但是怎么替换呢,列出全量的HTML实体字符,一个一个替换?
最佳答案
2018-1-16 21:23:59
还是鱼头好 发表于 2018-1-16 19:20
谢谢,应该可以。之前用过这个方法,但是掉入eclipse的控制台本身就print不出来特殊字符的这个坑里,以为 ...

用htmlunit和jsoup抓取网页源码后的字符HTML实体和特殊字符不需要做任何转换,可以直接存储。Oracle的字符编码设置为SIMPLIFIED CHINESE_CHINA.AL32UTF8即可存储汉字和特殊字符。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2017-12-19 22:50:23 | 显示全部楼层
消灭0回复
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-1-1 21:22:50 | 显示全部楼层
新的一年,UP一下
顿等好心的有缘人
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-1-2 17:17:40 | 显示全部楼层
可以看看这个http://blog.csdn.net/hubin1989/article/details/49072947,我就是这样处理的!

评分

参与人数 1荣誉 +5 鱼币 +5 贡献 +2 收起 理由
还是鱼头好 + 5 + 5 + 2 非常感谢TVT

查看全部评分

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-1-3 21:45:48 | 显示全部楼层
畩と嘫 发表于 2018-1-2 17:17
可以看看这个http://blog.csdn.net/hubin1989/article/details/49072947,我就是这样处理的!

非常感谢回复!!!
但是文中的方法只解决了空格的问题,而我的问题在于如何对各种不同的特殊字符进行自动转化处理呢?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-1-10 08:59:09 | 显示全部楼层
本帖最后由 Byboy 于 2018-1-10 09:01 编辑

你可以尝试apache的工具类 org.apache.commons.lang3中的方法
  1. StringEscapeUtils.unescapeHtml()
复制代码


你可以参考http://stackoverflow.com/questio ... putility-htmldecode

评分

参与人数 1荣誉 +5 鱼币 +5 贡献 +2 收起 理由
还是鱼头好 + 5 + 5 + 2 灰常感谢TVT

查看全部评分

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-1-14 16:42:20 | 显示全部楼层
Byboy 发表于 2018-1-10 08:59
你可以尝试apache的工具类 org.apache.commons.lang3中的方法

我这边现在只能看到unescapeHtml3和unescapeHtml4这两个函数,但是转换后仍然显示为“?”,JDK为1.8,还望大神继续指教。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-1-14 19:02:52 | 显示全部楼层
3,4都可以  建议使用 3

评分

参与人数 1荣誉 +5 鱼币 +5 贡献 +3 收起 理由
还是鱼头好 + 5 + 5 + 3 非常感谢TVT

查看全部评分

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-1-16 19:20:20 | 显示全部楼层
Byboy 发表于 2018-1-14 19:02
3,4都可以  建议使用 3

谢谢,应该可以。之前用过这个方法,但是掉入eclipse的控制台本身就print不出来特殊字符的这个坑里,以为是没转换成功。现在还有个问题,数据下载完是存放在Oracle数据库里面的,oracle哪个字符编码是同时支持特殊字符和中文的呢,我目前的是simplified chinese_china_zhs16gbk,支持中文,但特殊字符出来就是“?”.
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-1-16 21:23:59 | 显示全部楼层    本楼为最佳答案   
还是鱼头好 发表于 2018-1-16 19:20
谢谢,应该可以。之前用过这个方法,但是掉入eclipse的控制台本身就print不出来特殊字符的这个坑里,以为 ...

用htmlunit和jsoup抓取网页源码后的字符HTML实体和特殊字符不需要做任何转换,可以直接存储。Oracle的字符编码设置为SIMPLIFIED CHINESE_CHINA.AL32UTF8即可存储汉字和特殊字符。

评分

参与人数 1荣誉 +5 鱼币 +5 贡献 +3 收起 理由
还是鱼头好 + 5 + 5 + 3 灰常感谢TVT

查看全部评分

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-1-17 07:06:48 | 显示全部楼层
Neil007 发表于 2018-1-16 21:23
用htmlunit和jsoup抓取网页源码后的字符HTML实体和特殊字符不需要做任何转换,可以直接存储。Oracle的字 ...

抹泪!!!历时1个多月,在QQ群和论坛的各位大神的帮助下,终于解决了TVT
灰常灰常感谢帮助过的所有人
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-3-29 02:17

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表