有一個產品明細表,數據10萬條,帶價格,現在有一個1000條產品的表格,需要到10萬條數據里面找最相似的,并將價格列出來,同一產品名稱不同,比如數據庫里有大竹桿,大掃把,竹掃把1.9米,大掃帚等,我們查的產品可能是芨芨草掃把,需要從里面找到最相似的,我們現在的做法是系統一個字符一個字符去比對,找到比對上最多的,列出來,人工判定,今天通過大模型比對了一些案例,感覺效果很好,
主要體現在:1、分詞很好,能找出一條數據里面的關鍵詞,能識別規格型號,材質、工藝、品牌等等,都能識別出來;
2、有邏輯,比如,燒杯有50ml、100ml、500ml,能找到最接近的;
3、能根據邏輯判斷哪個最相似,我們可以設定一個簡單的評分系統,其中每個匹配的特征得到一定的分數,不匹配的特征得0分。假設滿分為3分(每項1分),
我們可以這樣計算:1.關鍵名詞:燒杯與高型燒杯在功能上相似,但高型燒杯更具體,考慮到這一點,我們可以給“燒杯”與“高型燒杯”之間相似度評分為0.5分(因為高型燒杯是燒杯的一種,但不是所有燒杯都是高型的)。
2.3.材質:“玻璃”在第一個描述中出現,而在后兩個描述中未提及。但由于燒杯通常默認為玻璃材質,我們可以假設相似度為1分,除非有相反的證據。
4.5.規格尺寸:容量不同,這意味著在這一項上沒有相似性,得分為0分。
6.基于以上,我們可以計算兩兩之間的相似度得分:?玻璃燒杯/100ml 與 高型燒杯|50ml?o名稱相似度 = 0.5分o材質相似度 = 1分o規格尺寸相似度 = 0分o總相似度 = 1.5分?玻璃燒杯/100ml 與 高型燒杯|3000ml?o名稱相似度 = 0.5分o材質相似度 = 1分o規格尺寸相似度 = 0分o總相似度 = 1.5分?高型燒杯|50ml 與 高型燒杯|3000ml?o名稱相似度 = 1分(因為兩者都是高型燒杯)o材質相似度 = 1分(假設兩者都是玻璃材質)o規格尺寸相似度 = 0分o總相似度 = 2分如果將總分3分視為完全相同,那么可以認為:?“玻璃燒杯/100ml”與另外兩種燒杯的相似度為50%(1.5/3)。?“高型燒杯|50ml”與“高型燒杯|3000ml”的相似度為66.67%(2/3)。但是,大模型只能一個一個去問,如果我有一個數據庫,存了10萬條數據,現在有1000條數據去一條一條找10萬條數據里面最相似的,有人能做嗎,能做的聯系我,價格面議
途傲科技為中小企業提供網站制作、網站建設、微信H5、微信小程序,多商戶平臺,多級分銷系統,APP開發,手機網站,HTML5多端自適應網站,營銷型企業站建設,及對技術人才的培養等都積累與沉淀了豐富的心得和實戰經驗。
如果您想定制同款軟件,可以將需求提交給我們【免費提交需求,獲取解決方案】
免責聲明:文章部分內容收集于互聯網,不代表本站的觀點和立場,如有侵權請聯系刪除。