Semalt網站數據蒐集專家-好的和壞的機器人
網絡抓取已經存在了很長時間,對網站管理員,記者,自由職業者,程序員,非程序員,市場研究人員,學者和社交媒體專家。機器人有兩種類型:好機器人和壞機器人。好的bot可以使搜索引擎將Web內容編入索引,並且市場專家和數字營銷人員對它們具有很高的偏愛。另一方面,不良的bot毫無用處,旨在破壞網站的搜索引擎排名。網絡抓取的合法性取決於您使用過哪種類型的機器人。
例如,如果您使用的惡意機器人意圖從其他網頁上非法獲取內容,則可能會被非法抓取有害。但是,如果您使用好的機器人,並避免有害活動,包括拒絕服務攻擊,在線欺詐,競爭性數據挖掘策略,數據盜竊,帳戶劫持,未經授權的漏洞掃描,數字廣告欺詐和盜竊知識產權,那麼網絡抓取程序是很好的方法,對您在Internet上發展業務很有幫助。
不幸的是,大多數自由職業者和新興企業都喜歡壞機器人,因為它們是一種廉價,強大而全面的收集數據的方式,而無需合作。但是,大公司利用合法的網絡抓取工具來獲取收益,並且不想以非法的網絡抓取工具破壞互聯網上的聲譽。關於網絡爬網合法性的一般性意見似乎無關緊要,因為在過去的幾個月中,很明顯,聯邦法院系統正在打擊越來越多的非法網絡爬網策略。
Web抓取是從2000年開始的一項非法程序,當時使用機器人和蜘蛛來抓取網站是胡說八道。直到2010年,才採取了許多措施阻止該程序在互聯網上傳播。eBay首次針對Bidder's Edge提出了初步禁令,聲稱在該網站上使用漫遊器已違反了Trespass to Chattels法律。法院很快批准了該禁令,因為用戶必須同意網站的條款和條件,並且大量的機器人被停用,因為它們可能會對eBay的計算機造成破壞。訴訟很快在庭外和解,eBay禁止所有人使用機器人進行網頁抓取,無論它們是好是壞。
2001年,一家旅行社起訴競爭對手,競爭對手利用有害蜘蛛和不良機器人從網站上抓取了其內容。法官們再次採取了打擊犯罪的措施,對受害者表示青睞,他們說,網絡抓取和使用機器人程序都可能損害各種在線業務。
如今,對於學術,私人和信息聚合,很多人都依賴公平的網絡抓取程序,而很多網絡抓取工具。現在,官員們說,並不是所有這些工具都是可靠的,但付費或高級版本中的工具要比免費的網頁抓取工具。
2016年,國會通過了第一部針對不良機器人並青睞好機器人的立法。制定了《更好的在線票務銷售(BOTS)法案》,該法案禁止使用可能針對該網站的非法軟件,從而損害其搜索引擎排名並破壞其業務。有公平的問題。例如,LinkedIn在阻止或消除不良機器人並鼓勵良好機器人的工具上花了很多錢。由於法院一直在試圖裁定Web抓取的合法性,因此公司正在竊取其數據。