
firecrawl.dev在一个平台完成Search、Crawl的的操作
在线爬虫平台firecrawl.dev 提供了一个search接口,可以让我们直接在一个平台完成Search、Crawl的的操作。
搜索与爬取整合:通过一个接口完成搜索和爬取操作。
支持各种搜索参数:接入Google搜索,可以使用Google搜索参数优化查询结果。
AI 提取功能:能够对搜索后爬取到的内容进行信息提取,输出自定义的格式。
{ "query": "LLM humanlike Prompt", "limit": 5, "timeout": 300000, "scrapeOptions": { "formats": ["markdown"], "onlyMainContent": true, "removeBase64Images": true }}
query:我们要查询的关键字。
limit:限定要查询的网页条数,默认值是5。注意这里的条数是算到使用次数里面的,也就说limit是10条,你这次的firecrawl的使用次数(Credit Usage)就是10!
timeout:调用接口后的等待时间,单位是ms,默认值是6000,也就是1分钟。毕竟需要先搜索,然后爬取页面,所以有时候接口的调用时间会有点长,我们可以稍微配置长一点的时间。
scrapeOptions:用来对搜索返回的内容进行处理的配置。
scrapeOptions.formats: 用来指定返回的格式。比如例子中我期望返回的是markdowm。
scrapeOptions.onlyMainContent: 在处理搜索结果的时候,爬虫只需要爬取页面中的主要内容。
scrapeOptions.removeBaseImages: 不要爬取图片,因为图片的base64 会占用很多文本,对我们后续处理不友好。

tbs: Time-based search parameter 的缩写,用来限定search的时间段。常用的几个值如下表:
lang:指定搜索目标的语言,比如 en 英语、zh-cn 中文、ja 英文。要注意的是这个参数只有在搜索条件也包含对应的语言的关键字的时候才生效的。
country: 搜索目标的城市编码,比如 us 美国、gb 英国、cn 中国、jp 日本。这个用来限定搜索的网页是在哪个国家的。
location:搜索的地理位置。这个不是目标网站的位置限定,是向 google传递你的地理位置!这样google会根据你的地理位置返回个性化的搜索结果。比如本地的天气、商家推荐之类的。可以传国家、城市、地标、省份,google自动会进行模糊匹配。
{ "query": "LLM 人性化 Prompt", "limit": 3, "timeout": 300000, "tbs": "qdr:y", "lang": "zh-cn", "country": "cn", "location": "广东", "scrapeOptions": { "formats": ["markdown"], "onlyMainContent": true, "removeBase64Images": true }}
关键字完整包含限定:比如你要搜索一个短语,你可以用双引号 "key word" 包住这个短语,这样就是完整搜索模式了。
剔除关键字:和上面的相反,如果要排除掉某些内容,我们可以用 -keyword 来告诉Google搜索结果不要出现那些内容。
剔除指定的网站:用 -site:网址 来告诉Google我不想看到某个网站里面的内容。
限定搜索的网址:如果要限定搜索对象在某些特定的网站内,我们可以用 site:域名 限定搜索结果的域名,或者用 inurl:name 限定搜索结果的网址包含某个字符串,可以用 allinurl:xxx yyy 指定多个字符串。
限定搜索的网站标题:我们可以限定只找包含限定关键字在标题里面网址,用 intitle:keyword、allintitle:keyword1 keyword2。
{ "query": "LLM 人性化 Prompt -site:csdn.net", "limit": 3, "timeout": 60000, "lang": "zh-cn", "tbs": "qdr:y", "scrapeOptions": { "formats": ["extract"], "extract": { "prompt": "Please just give me the content related to the query key words in the main content, remove all the links and images. Format the mainContent as a more readable markdown" } }}
scrapeOptions.extract: 这个下面开始定义要AI帮我们怎么处理搜索的结果。
scrapeOptions.extract.prompt:大模型的指令
scrapeOptions.extract.schema:可以自己定义输出的json格式,比如例子中,我期望输出中的json包含两个字段:main_content 和 total_wording。实测这个字段并不一定需要出现在我们给出的prompt中, FireCrawl会自己使用AI解析后给出相应的格式。
[超站]友情链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/

随时掌握互联网精彩
- 1 中美对话和合作是唯一正确的选择 7904629
- 2 俄轰炸乌军工企业 几乎覆盖全境 7809202
- 3 《西游记》演员叶以萌去世 7714383
- 4 全球品牌 如何赢在中国 7618781
- 5 北大韦神牙齿脱落 家属称患牙周炎 7519983
- 6 范玮琪一开口就跑调 7428108
- 7 巴黎世家出"北京烤鸭"包卖15500元 7331447
- 8 女子去世前家属求助7小时无医生救治 7238595
- 9 市监局回应黄杨钿甜爸爸连夜退股 7143673
- 10 甲骨文版高考祝福来啦 7043341