登录 立即注册

找到11515个回复

老虎会游泳 10楼回复 无名啊如何像正则一样验证 HTML 并提取出捕获内容? (2023-09-02//)

虽然 XSLT 最初被设计为用于 XML 转换的专用语言,但该语言是图灵完备的,这使得它理论上能够进行任意计算。

XSLT 2.0 最重要的创新包括:
使用正则表达式进行字符串操作

XSLT 3.0
支持映射和数组,使 XSLT 能够处理 JSON 和 XML。
改进了对动态错误的处理,例如使用 xsl:try 指令。

https://en.m.wikipedia.org/wiki/XSLT

440px-XSLT_en.svg.png(65.84 KB)

老虎会游泳 9楼回复 无名啊如何像正则一样验证 HTML 并提取出捕获内容? (2023-09-02//)
无名啊 8楼回复 无名啊如何像正则一样验证 HTML 并提取出捕获内容? (2023-09-02//)

@老虎会游泳,好像有点接近,等会儿去看看用法。先谢谢老虎

老虎会游泳 7楼回复 无名啊如何像正则一样验证 HTML 并提取出捕获内容? (2023-09-02//)

@无名啊,搜“XSLT html to json”可以看到一些案例。

比如这个:

https://stackoverflow.com/questions/18055368/html-to-json-conversion-in-xslt

无名啊 6楼回复 无名啊如何像正则一样验证 HTML 并提取出捕获内容? (2023-09-02//)

@老虎会游泳

用 xpath、css 选择器 来批量提取数据有些吃力

CSS 选择器、xpath 我都用过,对于提取单独几条挺好用的。

但是批量提取整个页面的数据,就麻烦多了。

所以想着有没有验证 HTML 结构的同时,还能提取出内容的。

为啥要验证

页面结构很动态,目前我只能靠验证来确定:

  1. 有可能会出现什么元素,不遗漏元素,也不误解元素含义(比如老虎林首页,还有可能出现 [公开][被下沉][评论关闭] 之类的)

  2. 防止日后结构变化时不自知

老虎会游泳 5楼回复 无名啊如何像正则一样验证 HTML 并提取出捕获内容? (2023-09-02//)

@无名啊,这是最接近你想要的东西:

XSLTJSON: Transforming XML to JSON using XSLT

https://github.com/bramstein/xsltjson

XSLT是一种样式表,用于把XML转换为其他表现形式(比如可显示的HTML,甚至是JSON)。该样式表也可以用于验证输入是否与样式匹配。

不过HTML不是严格的XML,不清楚解析器是否能正确处理HTML中的宽松语法。

老虎会游泳 4楼回复 无名啊如何像正则一样验证 HTML 并提取出捕获内容? (2023-09-02//)

PHP版:https://symfony.com/doc/current/components/dom_crawler.html

If you prefer CSS selectors over XPath, install The CssSelector Component. It allows you to use jQuery-like selectors:

$crawler = $crawler->filter('body > p');
老虎会游泳 3楼回复 无名啊如何像正则一样验证 HTML 并提取出捕获内容? (2023-09-02//)

querySelector的nodejs版本:
https://www.npmjs.com/package/query-selector

老虎会游泳 2楼回复 无名啊如何像正则一样验证 HTML 并提取出捕获内容? (2023-09-02//)

@无名啊,验证不了解。最好的html内容提取工具是浏览器的document.querySelector(),我在chatgpt机器人里有很多应用。

无名啊 1楼回复 无名啊如何像正则一样验证 HTML 并提取出捕获内容? (2023-09-02//)

@老虎会游泳,以前碰到过类似情况吗?有啥好用的工具吗?

缘儿 13楼回复 无名啊有什么小型的 NoSQL 文档数据库吗?类似 SQLite 那样的 (2023-09-02//)
@无名啊,如果你想要nosql还需要支持json索引的时候又要支持sql还方便分发,那就只能做取舍了,估计还没人做这样的轮子
无名啊 12楼回复 无名啊有什么小型的 NoSQL 文档数据库吗?类似 SQLite 那样的 (2023-09-02//)

@缘儿,0 楼有提到过

Unqlite:不支持索引;不支持一般 SQL 语句(即,不支持声明式编程),需要自己写类似 Lua 的嵌套代码。。

缘儿 11楼回复 无名啊有什么小型的 NoSQL 文档数据库吗?类似 SQLite 那样的 (2023-09-01//)
@无名啊,unqlite
无名啊 10楼回复 无名啊有什么小型的 NoSQL 文档数据库吗?类似 SQLite 那样的 (2023-09-01//)

@缘儿,Python。能提供 C API 就好

无名啊 11楼回复 老虎会游泳本人提名该照片为年度最佳手机摄影 (2023-09-01//)

@咯叽,啥网页的广告,插件都拦不了?

缘儿 9楼回复 无名啊有什么小型的 NoSQL 文档数据库吗?类似 SQLite 那样的 (2023-08-31//)
@无名啊,你用什么语言?
咯叽 10楼回复 老虎会游泳本人提名该照片为年度最佳手机摄影 (2023-08-31//)
层主 @咯叽 于 2023-10-07 23:11 删除了该楼层。
无名啊 8楼回复 无名啊有什么小型的 NoSQL 文档数据库吗?类似 SQLite 那样的 (2023-08-31//)

@缘儿,适用于小工具类型的,不用启动服务器(即,你所说的嵌入式?)

比如,像 SQLite 那样,1 MB,便携易分发易使用(可惜它是关系型数据库)

无名啊 9楼回复 老虎会游泳本人提名该照片为年度最佳手机摄影 (2023-08-31//)

@胡椒舰长,是这个理儿。。

明年 chrome 就要大幅限制广告拦截和油猴插件之类的了。。

缘儿 7楼回复 无名啊有什么小型的 NoSQL 文档数据库吗?类似 SQLite 那样的 (2023-08-31//)
@无名啊,你定义大小型的标准是什么?嵌入式?rethink的docker image大小才不到50m,在我的理解中已经算是小型了
下一页 上一页 (156 / 576页)

11月10日 06:20 星期一

本站由hu60wap6驱动

备案号: 京ICP备18041936号-1