选择你喜欢的标签
我们会为你匹配适合你的网址导航

    确认 跳过

    跳过将删除所有初始化信息

    您的位置:0XUCN > 资讯 > 技术
    新闻分类

    firecrawl.dev在一个平台完成Search、Crawl的的操作

    技术 PRO 作者:angelinababy 2025-06-06 06:54

    在线爬虫平台firecrawl.dev 提供了一个search接口,可以让我们直接在一个平台完成Search、Crawl的的操作。

    我为什么会对这个接口感兴趣呢?因为要让大模型接入网络,必须得要有个搜索的功能啊!而且Firecrawl是搜索后能直接返回页面的内容!
    • 搜索与爬取整合:通过一个接口完成搜索和爬取操作。

    • 支持各种搜索参数:接入Google搜索,可以使用Google搜索参数优化查询结果。

    • AI 提取功能:能够对搜索后爬取到的内容进行信息提取,输出自定义的格式。

    Firecrawl 的 API Doc 中,对这个search接口的使用方法介绍很是简略,经过我研读源代码、大量尝试,总结出了这篇文章:一次性让你学会使用 Firecrawl的搜索接口,包括在搜索中结合 Extract 直接汇总结果!

    Note1. Firecrawl的基础用法请参考这篇文章 《来玩一下在线爬虫API:Firecrawl》,下面的例子都是根据我这篇文章的用法,在Postman中尝试的。
    Note2. 通过阅读源码,我发现Firecrawl竟然是用的 searchapi.io ,可以看我这篇文章了解什么是 searchapi:《让大模型“联网”的第一步?手把手教你调用搜索API!》


    Firecrawl search 接口的url是:
    https://api.firecrawl.dev/v1/search 

    1. 先来试一下最简单的用法

      {    "query": "LLM humanlike Prompt",    "limit": 5,    "timeout": 300000,    "scrapeOptions": {        "formats": ["markdown"],        "onlyMainContent": true,        "removeBase64Images": true    }}

      • query:我们要查询的关键字。
      • limit:限定要查询的网页条数,默认值是5。注意这里的条数是算到使用次数里面的,也就说limit是10条,你这次的firecrawl的使用次数(Credit Usage)就是10!
      • timeout:调用接口后的等待时间,单位是ms,默认值是6000,也就是1分钟。毕竟需要先搜索,然后爬取页面,所以有时候接口的调用时间会有点长,我们可以稍微配置长一点的时间。
      • scrapeOptions:用来对搜索返回的内容进行处理的配置。
        • scrapeOptions.formats: 用来指定返回的格式。比如例子中我期望返回的是markdowm。
        • scrapeOptions.onlyMainContent: 在处理搜索结果的时候,爬虫只需要爬取页面中的主要内容。
        • scrapeOptions.removeBaseImages: 不要爬取图片,因为图片的base64 会占用很多文本,对我们后续处理不友好。

      调用后返回的结果如下:
      2. 进阶的用法,使用Firecrawl参数限定查询结果
      Firecrawl search 接口支持下面几个参数,官方文档详细给出怎么用,不过我还是一个一个查出来了!因为这些参数其实就是 google 的搜索API支持的参数……
      • tbs: Time-based search parameter 的缩写,用来限定search的时间段。常用的几个值如下表:
      • lang:指定搜索目标的语言,比如 en 英语、zh-cn 中文、ja 英文。要注意的是这个参数只有在搜索条件也包含对应的语言的关键字的时候才生效的。
      • country: 搜索目标的城市编码,比如 us 美国、gb 英国、cn 中国、jp 日本。这个用来限定搜索的网页是在哪个国家的。
      • location:搜索的地理位置。这个不是目标网站的位置限定,是向 google传递你的地理位置!这样google会根据你的地理位置返回个性化的搜索结果。比如本地的天气、商家推荐之类的。可以传国家、城市、地标、省份,google自动会进行模糊匹配。

      下面是一个完整的范例:

        {    "query": "LLM 人性化 Prompt",    "limit": 3,    "timeout": 300000,    "tbs": "qdr:y",    "lang": "zh-cn",    "country": "cn",    "location": "广东",    "scrapeOptions": {        "formats": ["markdown"],        "onlyMainContent": true,        "removeBase64Images": true    }}

        3. 高阶用法,使用google支持的参数
        现在来到Google搜索小妙招啦!下面和大家一起学习经常用搜索的同学肯定要掌握的搜索参数!
        • 关键字完整包含限定:比如你要搜索一个短语,你可以用双引号 "key word" 包住这个短语,这样就是完整搜索模式了。
        • 剔除关键字:和上面的相反,如果要排除掉某些内容,我们可以用 -keyword 来告诉Google搜索结果不要出现那些内容。
        • 剔除指定的网站:用 -site:网址 来告诉Google我不想看到某个网站里面的内容。
        • 限定搜索的网址:如果要限定搜索对象在某些特定的网站内,我们可以用 site:域名 限定搜索结果的域名,或者用 inurl:name 限定搜索结果的网址包含某个字符串,可以用 allinurl:xxx yyy 指定多个字符串。
        • 限定搜索的网站标题:我们可以限定只找包含限定关键字在标题里面网址,用 intitle:keyword、allintitle:keyword1 keyword2。
        更多搜索小妙招,请给我点个赞,我会开另外一篇文章来讲,敬请期待!

        4. 更高阶的用法,用LLM帮我抽取关键信息!
        在前面的例子中,我们可以看到搜索后爬回来的网页内容会有很多无效的内容,比如网页中的图片地址、一些网站的提示等等。
        大家一定会有想法:如果能够只爬取其中有用的内容该多好呀!
        那么现在让我们来看重头戏:让 Firecrawl 接入的的AI帮我们总结爬取到的页面内容!
        使用方法也很简单,我们将 scrape(输出)的格式改成 ‘extract’,然后给出我们的要求:

          {    "query": "LLM 人性化 Prompt -site:csdn.net",    "limit": 3,    "timeout": 60000,    "lang": "zh-cn",    "tbs": "qdr:y",    "scrapeOptions": {        "formats": ["extract"],        "extract": {            "prompt": "Please just give me the content related to the query key words in the main content, remove all the links and images. Format the mainContent as a more readable markdown"        }    }}

          • scrapeOptions.extract: 这个下面开始定义要AI帮我们怎么处理搜索的结果。
            • scrapeOptions.extract.prompt:大模型的指令
            • scrapeOptions.extract.schema:可以自己定义输出的json格式,比如例子中,我期望输出中的json包含两个字段:main_content  和 total_wording。实测这个字段并不一定需要出现在我们给出的prompt中, FireCrawl会自己使用AI解析后给出相应的格式。

          最后输出的结果大概这样的:
          可惜的是 search 中的extract 只能输出 json 格式,不过我们可以在prompt中要求给出 markdown 格式的内容,像我给出的例子那样。
          因为Postman不支持解析 Markdown 格式,所以一眼看上去有点平平无奇。但是各位读者都是很有经验的了,相信一眼就可以看出,这个 search+extract的功能肯定对我们后续学习了解大模型联网很有用的!

          0XU.CN

          [超站]友情链接:

          四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
          关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/

          图库
          公众号 关注网络尖刀微信公众号
          随时掌握互联网精彩
          赞助链接