闪电快速相似性API是一个高速模糊匹配和去重API,旨在处理现实世界中复杂的数据。它帮助您识别接近重复的记录并将实体协调在一起,即使值不完全匹配——错别字、大小写差异、缺失标点、空格问题、缩写和轻微的词序变化。
您无需构建和调整自己的模糊匹配管道,只需将字符串(或记录)发送到API并获取可靠的相似性评分匹配。典型输出包括匹配对(例如,“Apple” ↔ “apple inc.”),相似性分数,以及易于插入数据清理工作流、客户关系管理(CRM)、ETL作业和分析管道的结构化结果。
常见用例:
去重列表:在数据集中查找重复项(全对全匹配)并返回可能的重复对。
与主列表对账:将输入列表与规范集进行匹配(列表对主)。
客户关系管理和客户数据卫生:清理重复的潜在客户/账户/公司,以免影响报告和外展。
实体解析与记录关联:连接来自不同来源的对同一真实世界实体的引用。
团队使用它的原因:
开箱即用,处理复杂文本(无须为每个边缘案例手动制定规则)
用于排名和阈值的相似性分数(您可以选择严格程度)
为规模和自动化而建(设计用于运行在管道中,而不仅仅是一时的脚本)
{"status":"success","response_data":[["Apple","appl!e",1.0]]}
curl --location --request POST 'https://zylalabs.com/api/11914/lightning+fast+similarity+api/22649/dedupe?data=["Apple", "appl!e"]' --header 'Authorization: Bearer YOUR_API_KEY'
| 标头 | 描述 |
|---|---|
授权
|
[必需] 应为 Bearer access_key. 订阅后,请查看上方的"您的 API 访问密钥"。 |
无长期承诺。随时升级、降级或取消。
去重端点返回一个包含匹配字符串对、相似度分数和可选去重结果的JSON对象。输出可以根据指定的配置格式化为字符串对、索引对或去重字符串
响应数据中的关键字段包括“状态”(指示成功或错误)和“响应数据”,其中包含根据用户请求格式化的结果,例如匹配的对或去重的字符串
用户可以通过调整“config”对象中的参数来自定义请求,例如用于匹配严格性的“similarity_threshold”、用于预处理的“remove_punctuation”和用于选择所需结果结构的“output_format”
响应数据组织为一个结果数组,其中每个条目对应一个匹配项或去重字符串。根据输出格式,条目可能包括原始字符串、索引和相似度分数,便于轻松集成到工作流程中
典型的用例包括去重客户名单 对照主名单核对记录 清理CRM数据以及在不同数据源之间执行实体解析以确保数据的完整性和准确性
数据准确性通过先进的模糊匹配算法得以维护,这些算法考虑了常见的数据问题,如拼写错误和大小写差异。该API旨在有效处理杂乱的数据,确保可靠的匹配结果
接受的参数值包括“similarity_threshold”(0到1)、“remove_punctuation”(布尔值)、“to_lowercase”(布尔值)、“use_token_sort”(布尔值)和“top_k”(整数或“all”)这些参数允许用户根据自己的具体需求定制匹配过程
如果Dedupe端点返回部分或空结果,用户应该检查输入数据的质量问题,例如过多的重复项或非常低的相似性阈值。调整“similarity_threshold”或检查输入列表可以帮助改善结果
服务级别:
100%
响应时间:
215ms
服务级别:
100%
响应时间:
189ms
服务级别:
100%
响应时间:
982ms
服务级别:
100%
响应时间:
2,467ms
服务级别:
100%
响应时间:
493ms
服务级别:
100%
响应时间:
6,394ms
服务级别:
100%
响应时间:
1,291ms
服务级别:
99%
响应时间:
592ms
服务级别:
100%
响应时间:
1,455ms
服务级别:
100%
响应时间:
332ms