標(biāo)書查重算法最新進(jìn)展
針對(duì)招、投標(biāo)市場(chǎng)存在的各種亂象,由國(guó)家發(fā)展改革委等13部門印發(fā)《關(guān)于嚴(yán)格執(zhí)行招標(biāo)投標(biāo)法規(guī)制度進(jìn)一步規(guī)范招標(biāo)投標(biāo)主體行為的若干意見》,自2022年9月1日起開始施行。
針對(duì)“圍標(biāo)串標(biāo)”這一屢禁不止長(zhǎng)期存在的問題,各大招標(biāo)平臺(tái)紛紛摩拳擦掌,準(zhǔn)備上手段了。
標(biāo)書查重的技術(shù)已經(jīng)發(fā)展到了哪個(gè)階段了?哪些情況會(huì)被判定為圍標(biāo)串標(biāo)呢?以下根據(jù)筆者多年的經(jīng)驗(yàn)一一解答:
1.存在相同的文本和段落,是否就會(huì)被認(rèn)定圍標(biāo)串標(biāo)?
- 目前很多查重軟件,只要發(fā)現(xiàn)兩個(gè)標(biāo)書有相同字段,或者相似度達(dá)到一定閾值的,就判斷為串標(biāo)。這基本不正確。因?yàn),投?biāo)文件中會(huì)大量的copy招標(biāo)文件中的一些技術(shù)和商務(wù)條款等,這就造成比對(duì)的標(biāo)書中存在大量從招標(biāo)文件中copy過來的文字,這個(gè)時(shí)候,即使兩個(gè)投標(biāo)文件有大量的重復(fù),也不能判定為圍標(biāo)串標(biāo)。不過,老鐵們不用擔(dān)心,因?yàn)檎袠?biāo)平臺(tái)都會(huì)采用最新的AI算法,剔除掉招標(biāo)文件中的相同條款,大家盡可以放心。
- 換句話說,剔除掉招標(biāo)文件中的相同圖片和文字段落,這已經(jīng)是標(biāo)書查重的一個(gè)最基本功能了。
2.現(xiàn)在的技術(shù)水平能找到相同的圖片和原理框圖么?
- 過去,這確實(shí)是一個(gè)查重屆的難點(diǎn)。比方說,幾十個(gè)建筑類的圍標(biāo)文件中,無意中上傳了同樣的身份證照片、營(yíng)業(yè)執(zhí)照、授權(quán)文件圖片、原理框圖,查重軟件能對(duì)圖片進(jìn)行查重么?
- 傳統(tǒng)的算法和軟件工具確實(shí)做不到。我們?cè)诰W(wǎng)上看到的多數(shù)查重軟件都會(huì)告訴用戶,不支持圖片查重。甚至要求用戶在文件太大的時(shí)候,刪除圖片。
- 為啥做不到圖片查重呢?因?yàn)椋瑥乃惴ㄉ,傳統(tǒng)的查重軟件,都是把word、pdf文件先轉(zhuǎn)化成文字流,(簡(jiǎn)單說就是先把word轉(zhuǎn)化成txt文件),簡(jiǎn)單說,您如果看到一個(gè)查重展示結(jié)果是類似txt文件的,基本上都采用上述做法。
- 這種做法的好處,簡(jiǎn)單,快速。但是問題也是不言而喻:簡(jiǎn)單說,1.
圖片沒了;2.表格沒了(都變成一行一行的文字);3.文件格式?jīng)]了,都變成txt文件了。多年前的技術(shù)也就是這個(gè)水平。
- 不過,也不用擔(dān)心這個(gè)問題了。因?yàn)樽钚碌乃惴ɑ旧隙伎梢宰龅綀D片比對(duì)了。目前以“比對(duì)王”為代表的一系列在線文本比對(duì)、標(biāo)書查重工具,基本上都可以解決這個(gè)問題了。不再是難題了。
3.現(xiàn)在的查重軟件可以實(shí)現(xiàn)多文件互比么?
- 這本身就不是個(gè)問題。既然系統(tǒng)可以實(shí)現(xiàn)兩個(gè)投標(biāo)文件比較,多文件比較,就是個(gè)組合問題而已了。
4.還有別的查重手段么?
- 恭喜你,看到了這個(gè)問題。這確實(shí)是個(gè)問題。上面提到的,其實(shí)只是針對(duì)標(biāo)書內(nèi)容的一些手段,還有更多的手段,是非內(nèi)容的,我就不在這里介紹了?傊狭耸侄沃,圍標(biāo)串標(biāo)越來越難了,成本越來越高了。
怎么說呢,大家最近都不出去打工掙錢了,回到村里窩著,家里人就天天念叨著讓你打掃衛(wèi)生,把床底下的幾十年的臭襪子臭鞋子拿出來洗洗曬曬,你能咋辦?