新聞資訊/NEWS AND INFORMATION
|
爬網(wǎng)頁、洗數(shù)據(jù)、創(chuàng)建海量數(shù)據(jù)集一條龍!英偉達工程師小姐姐開源工具庫想做研究,卻沒有足夠的數(shù)據(jù),著實讓人抓狂、苦惱。 現(xiàn)在,你可以自己動手創(chuàng)建數(shù)據(jù)集了。 英偉達工程師小姐姐Chip Huyen,在GitHub上開源了一個名為“l(fā)azynlp”的工具庫。 爬網(wǎng)頁、清洗數(shù)據(jù)、創(chuàng)建數(shù)據(jù)集都可以搞定。 她說,使用這個庫,你應(yīng)該能創(chuàng)建一個比大于40G的文本數(shù)據(jù)集,比OpenAI訓(xùn)練GPT-2時使用的還要大。
開源僅一天,項目在GitHub上就獲得了300多星,Twitter上獲得上千次點贊。fast.ai創(chuàng)始人Jeremy Howard等人也轉(zhuǎn)發(fā)推薦。 而且,用這個工具庫創(chuàng)建數(shù)據(jù)集的過程,也并不麻煩。 五步走,一條龍 第一步,獲取你想抓取的網(wǎng)頁的網(wǎng)址。 小姐姐提供了三個你可以直接拿走使用的網(wǎng)址集合,分別來自Reddit、古騰堡計劃(電子書)、維基百科。 當然,你也可以下載自己的。 第二步,刪除重復(fù)的網(wǎng)址。 網(wǎng)址有很多,重復(fù)也在所難免。 這里提供了兩種方法,來刪除重復(fù)的網(wǎng)址。
第三步,下載網(wǎng)址內(nèi)容。 這里提供了兩種方法,一種可以并行下載多個文件,另一種可以單獨下載網(wǎng)頁內(nèi)容。 如果網(wǎng)址數(shù)量比較大,可以將列表分成多個文件的,分別調(diào)用函數(shù)。 小姐姐說,自己能夠并行40個腳本,下載起來也更容易一些。 第四步,清理網(wǎng)頁。 這一步有3個方法可以選擇,一是使用lazynlp/cleaner.py中的方法,二是直接調(diào)用命令行: lazynlp.clean_page(page) 另外,也可以使用lazynlp.download_pages ( )函數(shù),同時爬網(wǎng)頁并清理。 第五步,刪除重復(fù)網(wǎng)頁。 網(wǎng)站下載好了,該清理的東西都清理了,接下來需要去重。 不然就會有一些文本重復(fù)出現(xiàn),從而影響數(shù)據(jù)集的表現(xiàn)。 小姐姐提供了3個函數(shù),可以幫你完成步驟。 做完這些,你就有自己的NLP數(shù)據(jù)集了,想干什么就可以放手去做了。 — 完— 一份小調(diào)查 大噶好, 為了了解大家感興趣的話題,豐富我們的報道內(nèi)容,帶來更好的閱讀體驗,請大家?guī)臀覀兲钜环菡{(diào)查問卷鴨,掃碼即可進入問卷頁面。 |
|
本文來源于網(wǎng)絡(luò),由奧斯諾(zhunhng.cn)整理發(fā)布,本網(wǎng)站不擁有所有權(quán)。如有侵權(quán)請聯(lián)系刪除。如果還想了解更多關(guān)于網(wǎng)站建設(shè),網(wǎng)站優(yōu)化,SEO,網(wǎng)絡(luò)營銷,網(wǎng)絡(luò)推廣,的相關(guān)內(nèi)容,請關(guān)注本站,歡迎轉(zhuǎn)載。 |