1. 背景
本 qiang~ 本周在处理手头项目工作的时候,遇到了一个问题,就是 友方提供了一个公司名称列表 ( 量不小 ~ ,因此无法人工处理 ) ,且该公司名称列表均为简称,需要与库中的全称做一个映射匹配。
看似简单的一个需求,但传统的技术手段貌似都无法派上用场,比如语义相似度,文本编辑距离等等。
因此本 qiang 花费了半天的时间思考并解决了该任务,遂将工作记录如下,且本着开放共享,将核心源码进行公开,欢迎讨论 ~
2. 整体框架
其实, 原理也非常简单,由于本地数据库缺乏公司的完整信息,但可以借助互联网资源来搜索公司的相关信息,比如官网介绍、天眼查等来源,然后将检索后的结果通过大模型自带的推理能力输出最终结果。
本文中使用的搜索引擎是 duckduckgo_search( 需要kexue上网 ) ,大模型调用使用的 duckduckgo_search 内部集成的 gpt-4o-mini (理论上只要能kexue上网,即可免费使用 gpt-4o-mini ) 。
3. 效果展示
AutoX |
深圳安途智行科技有限公司 |
Cosmose |
翱觅苷(上海)信息科技有限公司 |
Magic Data |
北京晴数智慧科技有限公司 |
Minimax |
名之梦(上海)科技有限公司 |
Momenta |
北京初速度科技有限公司 |
Testin云测 |
北京云测信息技术有限公司 |
一流科技 |
一流科技有限公司 |
三六零 |
三六零安全科技股份有限公司 |
东杰智能 |
东杰智能科技集团股份有限公司 |
东软 |
东软集团股份有限公司 |
中心通讯 |
中兴通讯股份有限公司 |
中科创达 |
中科创达软件股份有限公司 |
中科曙光 |
曙光信息产业股份有限公司 |
中科视拓 |
中科视拓(北京)科技有限公司 |
中译语通 |
中译语通科技股份有限公司 |
九四智能 |
广州九四智能科技有限公司 |
九章云极 |
北京九章云极科技有限公司 |
云天励飞 |
深圳云天励飞技术股份有限公司 |
云徙科技 |
广州云徙科技有限公司 |
亚信科技 |
亚信科技控股有限公司 |
4. 全部源码
由于调用检索相对耗时,因此分为公司简称检索和公司全称提取两个模块
4.1 公司简称检索
4.2 公司全名提取
5. 总结
一句话足矣 ~
开发了一款基于公司简称补全公司全称的工具,包括具体的框架、实现原理以及完整源码,满满诚意,提供给各位看官。欢迎转发、订阅 ~ 有问题可以私信或留言沟通!
虽然需求比较简单,且实现过程也比较简单,但通过搜索引擎搜素以及大模型的各种奇技淫巧,相信可以完成更加复杂且效果惊艳的项目。
有兴趣的客官可以进行沟通合作,感谢 ~
6. 参考
(1) Duckduckgo_search: https://github.com/deedy5/duckduckgo_search.git