PyTorch Hub：圖靈獎得主 Yann LeCun 強推！一行代碼輕松復現(xiàn)主流模型

6 月 12, 2019

行業(yè)資訊

PyTorch Hub：圖靈獎得主 Yann LeCun 強推！一行代碼輕松復現(xiàn)主流模型

6 月 11 日，F(xiàn)acebook 宣布推出 PyTorch Hub。這是一個簡單的 API 和工作流程，包含計算機視覺、自然語言處理領域的諸多經(jīng)典模型的聚合中心，為機器學習研究的復現(xiàn)提供了基礎的構建模塊。無論是 ResNet、BERT、GPT、VGG、PGAN，還是 MobileNet 等經(jīng)典模型，只需輸入一行代碼，就能實現(xiàn)一鍵調(diào)用。

圖靈獎得主 Yann LeCun 強烈推薦

關于 PyTorch Hub

可復現(xiàn)性是許多研究領域的基本要求，包括基于機器學習技術的研究領域。然而，許多機器學習出版物要么不可復現(xiàn)，要么難以復現(xiàn)。隨著研究出版物數(shù)量的持續(xù)增長，包括目前在 arXiv 上的數(shù)萬份論文以及歷史大會投稿，研究的可復現(xiàn)性比以往重要得多。雖然其中很多出版物都附上了有用的代碼以及訓練有素的模型，但仍為用戶留下了一些需要自行解決的步驟。

所以 PyTorch 團隊推出了 PyTorch Hub：一個簡單的 API 和工作流程，為機器學習研究的復現(xiàn)提供了基礎的構建模塊。它由一個經(jīng)過預先訓練的模型存儲庫組成，專門設計用于協(xié)助研究的可復現(xiàn)性并實現(xiàn)新的研究。它還內(nèi)置了支持 Colab，集成 Papers With Code 網(wǎng)站，目前已有一組預訓練模型，包括 Classification、Segmentation、Generative 和 Transformer 等等。

[所有者] 發(fā)布模型

PyTorch Hub 可通過添加一個簡單的 hubconf.py 文件，實現(xiàn)將預訓練模型 (模型定義和預訓練權重) 發(fā)布到 GitHub 存儲庫。這提供了所支持模型的枚舉以及運行模型所需的依賴項列表。用戶可以在 torchvision，huggingface-bert 和 gan-model-zoo 存儲庫中找到示例。

最簡單的案例：torchvision's hubconf.py：

在 torchvision，模型具有以下屬性：

每個模型文件都可以獨立正常執(zhí)行
無需要除 PyTorch 以外的任何包（在 hubconf.py 中：dependencies['torch']）
無需單獨模型入口，因為模型一旦創(chuàng)建，即可無縫提取使用

將包依賴最小化，可減少用戶導入模型后需要立即進行實驗時出現(xiàn)的各類問題。一個更直觀的案例是 HuggingFace's BERT 模型，其 hubconf.py 文件如下：

每個模型都需要創(chuàng)建一個模型入口，下面是一個代碼段，指定了 bertForMaskedLM 模型入口，并返回預先訓練的模型權重。

這些模型入口可以作為復雜模型的包裝器，它們可以提供注釋文檔或其他幫助函數(shù)，具有支持下載預訓練權重的功能 (例如通過 pretrained=True)，或者具有其他特定功能，如可視化。

有了 hubconf.py，研究者就可以去 PyTorch Hub 的 GitHub 頁發(fā)送拉取請求。若該模型符合高質(zhì)量、易復現(xiàn)、最有益的要求，F(xiàn)acebook 官方將會與你合作；若模型質(zhì)量較低，也有被拒絕發(fā)布的可能。但拉取請求一旦被接受，該模型將很快出現(xiàn)在 PyTorch Hub 官方網(wǎng)頁上，供所有用戶瀏覽。

[用戶] 流程

PyTorch Hub 允許用戶對已發(fā)布的模型執(zhí)行以下操作：

1、查看可用的模型

用戶可以使用 torch.hub.list() API 查看存儲庫內(nèi)所有可用的模型入口。

PyTorch Hub 還允許使用除預訓練模型的其它輔助模型，例如在 BERT 模型中進行預處理時加入 bertTokenizer，這會使工作流更順暢。

2、加載模型

已知了其中提供的模型，用戶可以使用 torch.hub.load()API 加載模型入口。這只需要一個命令，而不需要安裝其它的 wheel。此外，torch.hub.help()API 可以提供有關如何使用預訓練模型演示的有用信息。

模型發(fā)布者通常后續(xù)也會不斷添加錯誤修復和性能改進，用戶通過調(diào)用也可以非常簡單地獲取更新，確保自己用到的是最新版本：

這將有助于減輕模型發(fā)布者重復發(fā)布包的負擔，從而使他們更加專注于研究。同時它還可確保，作為用戶獲得的是最新的可用模型。

而另一方面如果用戶更在意穩(wěn)定性，模型發(fā)布者則會提供一些特定的分支或標記 (而不是主分支)，以確保代碼的穩(wěn)定性。例如 pytorch_GAN_zoo 的 hub 分支：

3、了解模型可用方法

加載了模型后，可以使用 dir(model) 找出該模型所支持的可用方法，以 bertForMaskedLM 模型為例：

help(model.forward) 則可提供運行該方法所需的參數(shù)，幫助用戶進行更深入的了解。

其他

PyTorch Hub 中提供的模型也支持 Colab，并直接鏈接在 Papers With Code 中，用戶可以一鍵進入 Colab 運行模型 Demo。

原文鏈接：
https://pytorch.org/blog/towards-reproducible-research-with-pytorch-hub/

來源 | 雷鋒網(wǎng)
作者 | 楊鯉萍

PyTorch Hub：圖靈獎得主 Yann LeCun 強推！一行代碼輕松復現(xiàn)主流模型

Share this article:

More articles

啟智社區(qū)2022年開發(fā)者激勵細則

從“算力自主”到“普惠共贏”，中國算力網(wǎng)為DeepSeek云服務提供堅實的底座

2024年度openMind開源實習領獎者名單公示

【芯動開源】openMind專場第4期領獎者名單公示

【芯動開源】openMind專場第3期領獎者名單公示

【芯動開源】openMind專場第2期領獎者名單公示

【芯動開源】openMind專場首場領獎者名單公示

2024CCF中國開源大會分論壇承辦單位征集通知

“智繪藝術家之詩畫點軍”正式報名開賽 |AIGC與點軍的夢幻碰撞，等你來戰(zhàn)！

算力獲新生 | 算力共享，驅(qū)動人工智能創(chuàng)新的新引擎

2024年度OpenI啟智社區(qū)贊助方案

“我為開源打榜狂”第12期領獎者公示