販賣數(shù)據(jù)商家的推銷頁面昨天,北京青年報從某網(wǎng)購商城看到,最高人民法院裁判文書網(wǎng)的數(shù)據(jù)被標(biāo)價0 1元到1元不等出售。裁判文書網(wǎng)發(fā)布的判決
販賣數(shù)據(jù)商家的推銷頁面
昨天,北京青年報從某網(wǎng)購商城看到,最高人民法院裁判文書網(wǎng)的數(shù)據(jù)被標(biāo)價0.1元到1元不等出售。裁判文書網(wǎng)發(fā)布的判決書都是公開的,為什么會被售賣?獲取裁判文書網(wǎng)數(shù)據(jù)的手段對于網(wǎng)站是否有危害呢?
網(wǎng)售數(shù)據(jù)
價格需“私聊”獲取
北青報記者在某網(wǎng)絡(luò)商城中看到,有標(biāo)注來自湖南、廣東、山東等多地的商家均聲稱出售裁判文書網(wǎng)的數(shù)據(jù),其中不少商家聲稱其數(shù)據(jù)量超6000萬條。而據(jù)裁判文書網(wǎng)公開數(shù)據(jù)顯示,目前裁判文書網(wǎng)上公開的文書總量為7395萬多篇,如果商家所稱的數(shù)量屬實,則商家能夠提供絕大多數(shù)已經(jīng)公開的文書數(shù)據(jù)。
不少聲稱能夠出售裁判文書網(wǎng)數(shù)據(jù)的商家在商品文字描述中稱,其數(shù)據(jù)是通過“網(wǎng)絡(luò)爬蟲”的方式獲取的。所謂“網(wǎng)絡(luò)爬蟲”,又稱網(wǎng)頁蜘蛛、網(wǎng)頁機器人,是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。相當(dāng)于一個自動訪問網(wǎng)頁并進行相關(guān)操作的小機器人。
北青報記者注意到,盡管每名商家均在商品頁面標(biāo)示稱,其數(shù)據(jù)售價為0.1元至1元,但每名商家均在文字描述中表示,數(shù)據(jù)的售價并不以標(biāo)示為準(zhǔn),而是需要“私聊”獲取。
一名售賣裁判文書數(shù)據(jù)的商家說,購買裁判文書數(shù)據(jù)的買家所需要的數(shù)據(jù)量從幾千篇到幾千萬篇不等,有的買家是因為無法打開裁判文書網(wǎng)而不得不來求助于數(shù)據(jù)賣家,“還有很多學(xué)生買數(shù)據(jù)用于論文寫作,這種情況幾千條就夠了,商用的話可能需要幾百萬條甚至上千萬條。”商家還稱,每個月他們能接到四五個文書數(shù)據(jù)采集的訂單,而價格和買家需要的數(shù)據(jù)量有關(guān),“幾百萬條數(shù)據(jù)大概要幾千塊錢,現(xiàn)在加密技術(shù)很嚴(yán)格,所以要貴一些。”
“爬蟲”系統(tǒng)
曾致正常用戶無法訪問
北青報記者了解到,部分技術(shù)機構(gòu)通過網(wǎng)絡(luò)爬蟲系統(tǒng)獲取裁判文書網(wǎng)數(shù)據(jù)的行為,已經(jīng)給裁判文書網(wǎng)正常用戶的訪問帶來了不便。不少網(wǎng)友曾在網(wǎng)上發(fā)帖稱,自己搜索裁判文書時,常常遭遇裁判文書網(wǎng)網(wǎng)站顯示因為系統(tǒng)原因,無法查詢的情況。
對此,最高人民法院在其官網(wǎng)回應(yīng)網(wǎng)友對于裁判文書網(wǎng)運行慢、故障頻繁等情況時表示,由于中國裁判文書網(wǎng)公開文書數(shù)量和影響力不斷增加,訪問用戶數(shù)不斷增長。同時,2018年5月初以來,大量技術(shù)公司通過爬蟲系統(tǒng)無限制并發(fā)訪問非法獲取裁判文書數(shù)據(jù),造成網(wǎng)站負(fù)荷過大,大量正常用戶請求堵塞,訪問出現(xiàn)速度慢或部分頁面無法顯示等現(xiàn)象。
今年5月,最高人民法院信息中心主任許建峰在接受媒體采訪時表示:“中國裁判文書網(wǎng)目前每天的訪問量可以達(dá)到幾千萬的量級,其中還包括數(shù)據(jù)爬蟲的攻擊,我們的中心服務(wù)器承受著巨大壓力。”
“我們每時每刻都在監(jiān)控著它的應(yīng)用情況,希望遇到問題立即采取措施,但是的確還不能完全跟得上步子,所以會出現(xiàn)停網(wǎng)維護運營的情況。”許建峰說,最高法已成立了專門的運維保障團隊去維護管理中國裁判文書網(wǎng),也將在技術(shù)與人力上投入更多的力量。
相關(guān)機構(gòu)
已采用多種方式“反爬”
北青報記者獲悉,此前,相關(guān)方面已采取多種方式,對抗“爬蟲技術(shù)”。最高人民法院曾發(fā)文稱,為更好地確保正常用戶訪問性能,相關(guān)方面以驗證碼的方式上線系統(tǒng)軟件防爬功能。“驗證碼技術(shù)是防爬蟲的一種有效措施,當(dāng)瀏覽量在某段時間內(nèi)達(dá)到一定數(shù)量后,將啟用驗證碼機制進行核驗。后續(xù),我們將不定期更新防爬蟲技術(shù),加強網(wǎng)站維護,提高網(wǎng)站運行效率和穩(wěn)定性。”
此外,針對網(wǎng)友提問,為何不能按照“公開時間”為檢索條件進行裁判文書檢索時,最高人民法院方面表示,暫沒有設(shè)置“公開時間”為檢索條件的主要原因是爬蟲系統(tǒng)會根據(jù)“公開時間”項進行增量文書爬取,“待下一步防爬蟲系統(tǒng)穩(wěn)定、可靠運行一段時間后,我們將適時考慮增加‘公開時間’檢索項。”
此外,最高人民法院方面稱:“由于前期爬蟲行為過于猖獗,無限制暴力訪問大幅降低正常用戶訪問性能,我們采取了通過限制列表頁面翻頁數(shù)量來防止爬蟲系統(tǒng)的措施。”
實習(xí)生趙詣涵統(tǒng)籌/池海波
律師分析
強行突破“反爬”技術(shù)或構(gòu)成犯罪
金杜律師事務(wù)所從事IP類法律業(yè)務(wù)的律師瞿淼曾發(fā)文闡述了網(wǎng)絡(luò)爬蟲所涉及的法律問題。瞿淼稱,從技術(shù)中立的角度而言,爬蟲技術(shù)本身并無違法違規(guī)之處。但是,隨著數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,數(shù)據(jù)爬取帶來的各種問題和顧慮日漸增加。過于野蠻的爬蟲可能造成網(wǎng)站負(fù)荷過大,從而導(dǎo)致網(wǎng)站癱瘓、不能訪問等。
“由于爬蟲的批量訪問會給網(wǎng)站帶來巨大的壓力和負(fù)擔(dān),因此許多網(wǎng)站經(jīng)營者會采取技術(shù)手段,以阻止爬蟲批量獲取自己網(wǎng)站信息。而針對這些技術(shù)手段,爬蟲開發(fā)者可以通過優(yōu)化自己的代碼、使用IP池等多種方式規(guī)避上述技術(shù)措施,實現(xiàn)對網(wǎng)站信息的批量抓取和復(fù)制。”瞿淼說,由于網(wǎng)絡(luò)爬蟲會根據(jù)特定策略盡可能多地訪問頁面,因而爬蟲的使用將占用被訪問網(wǎng)站的網(wǎng)絡(luò)帶寬并增加網(wǎng)絡(luò)服務(wù)器的處理開銷,甚至無法正常提供服務(wù)。
瞿淼認(rèn)為,根據(jù)《反不正當(dāng)競爭法》關(guān)于網(wǎng)絡(luò)的相關(guān)條款,如果網(wǎng)站運營者已經(jīng)采取了一定的反爬蟲措施,而爬蟲控制者基于經(jīng)營目的、強行突破網(wǎng)站運營者采取的反爬蟲技術(shù)措施,并客觀導(dǎo)致被抓取網(wǎng)站無法正常運行,則可能構(gòu)成不正當(dāng)競爭行為。此外,強行突破某些特定被爬方的技術(shù)措施,還可能構(gòu)成刑事犯罪行為。
針對此情況,北京市社會組織法律調(diào)解中心副理事長張新年律師認(rèn)為,“這些裁判文書基于司法公開目的,是免費的公共資源,未經(jīng)最高人民法院授權(quán),商家售賣裁判文書網(wǎng)數(shù)據(jù)構(gòu)成侵權(quán)。”(朱健勇)
關(guān)鍵詞: 文書網(wǎng) 數(shù)據(jù)出售 訪問量