人工智慧訓練資料稀缺並非問題所在

Bitget App

交易「智」變

Bitget

資訊中心

人工智慧訓練資料稀缺並非問題所在

Mpost2025/05/07 22:22

作者:Mpost

簡單來說人們越來越擔心訓練人工智慧模型的資料短缺，但公共互聯網提供了龐大且不斷擴展的資料來源，因此人工智慧不太可能面臨真正的資料短缺。

當今的人工智慧模型可以做一些令人驚奇的事情。就好像他們擁有魔力一樣，但實際上他們沒有。人工智慧模型實際上不是使用魔術，而是依靠數據——大量的數據來運作。

但人們越來越擔心，這些數據的稀缺性可能會導致人工智慧快速創新的步伐失去動力。最近幾個月，多次警告專家聲稱，世界正在耗盡用於訓練下一代模型的新資料供應。

缺乏數據對於大型語言模型的開發尤其具有挑戰性，而大型語言模型是生成式人工智慧聊天機器人和圖像生成器的引擎。它們接受了大量資料的訓練，隨著效能的每一次飛躍，需要越來越多的資料來推動它們的進步。

這些對人工智慧訓練資料稀缺性的擔憂已經導致一些企業開始尋找替代解決方案，例如使用人工智慧創建用於訓練人工智慧的合成數據，與媒體公司合作使用他們的內容，並部署「物聯網」設備，提供對消費者行為的即時洞察。

然而，有令人信服的理由認為這些擔憂被誇大了。最有可能的是，人工智慧產業永遠不會缺少數據，因為開發人員總是可以依靠世界上已知的最大資訊來源——公共網路。

海量數據

大多數人工智慧開發人員已經從公共互聯網獲取訓練資料。據說 OpenAI“ GPT-3 模型，病毒式傳播背後的引擎 ChatGPT 聊天機器人首次將生成式人工智慧引入大眾，它使用來自 Common Crawl（一個來自公共網路的內容檔案）的資料進行訓練。價值約 410 億個代幣的信息，或基於當時網上發布的幾乎所有信息，被輸入到 ChatGPT，為它提供所需的知識，以回答我們能想到的幾乎所有問題。

網路數據是一個廣義的術語，基本上涵蓋了在線發布的所有內容，包括政府報告、科學研究、新聞文章和社交媒體內容。這是一個非常豐富且多樣化的數據集，反映了從公眾情緒到消費者趨勢、全球經濟狀況和 DIY 教學內容的一切。

網路是人工智慧模式的理想施展舞台，不僅因為它如此廣闊，還因為它如此易於存取。使用 Bright Data 等專業工具抓取瀏覽器，可以從數百萬個網站即時獲取數據，其中包括許多積極嘗試阻止機器人這樣做的網站。

借助驗證碼求解器、自動重試、API 和龐大的代理 IP 網路等功能，開發人員可以輕鬆繞過 eBay 和 Facebook 等網站採用的最強大的機器人攔截機制，並獲取大量資訊。 Bright Data 的平台還整合了資料處理工作流程，可實現大規模的無縫建置、清理和訓練。

目前尚不清楚網路上有多少可用數據。 2018 年，國際數據公司估計，線上發布的數據總量將達到達到 175 ZB 到 2025 年底，Statista 的最新數據顯示 181 ZB 。可以這麼說，這是一座資訊大山，而且隨著時間的推移，它的數量呈指數級增長。

挑戰和倫理問題

在將這些資訊輸入到 AI 模型時，開發人員仍面臨重大挑戰。眾所周知，網路資料非常混亂且無結構，並且經常存在不一致和缺失值的情況。它需要經過密集的處理和「清理」才能被演算法理解。此外，網路數據通常包含大量不準確和不相關的細節，這些細節可能會扭曲人工智慧模型的輸出並加劇所謂的「幻覺」。

抓取網路資料也存在道德問題，特別是涉及版權資料以及什麼構成「合理使用」。雖然公司喜歡 OpenAI 有人認為他們應該被允許抓取任何可以免費在線消費的信息，但許多內容創作者表示，這樣做很不公平，因為這些公司最終會從他們的工作中獲利，同時可能會讓他們失業。

儘管對於哪些網路資料可以用於訓練人工智慧以及哪些不能用於訓練人工智慧仍然存在模糊性，但它的重要性是不可忽視的。在 Bright Data 最近發布的《公共網路資料狀況報告》中，88% 的受訪開發者議定由於公共網路數據的可訪問性和令人難以置信的多樣性，它對於人工智慧模型的開發至關重要。

這也解釋了為什麼 72% 的開發人員擔心，由於 Meta、亞馬遜和谷歌等大型科技公司的努力，這些數據在未來五年內可能會變得越來越難以獲取，這些公司更願意將其數據專門出售給高價企業合作夥伴。

使用網路數據的案例

上述挑戰解釋了為什麼人們大量討論使用合成數據來取代線上數據。事實上，關於合成資料相對於網路抓取的優勢正在出現爭論，並且有一些有力的論點支持前者。

合成資料的支持者指出了它帶來的好處，例如增加隱私、減少偏見和提高準確性。此外，它從一開始就適合 AI 模型，這意味著開發人員不必投入資源重新格式化並正確標記它以供 AI 模型讀取。

另一方面，過度依賴合成資料集可能會導致模型崩潰，無論如何，我們都可以同樣有力地證明公共網路資料的優越性。首先，基於網路的資料的純粹多樣性和豐富性是難以超越的，這對於訓練需要處理現實世界場景的複雜性和不確定性的人工智慧模型來說是無價的。它還可以幫助創建更值得信賴的人工智慧模型，因為它融合了人類的觀點和新鮮感，尤其是當模型可以即時存取它時。

在一個最近的採訪 Bright Data 執行長 Or Lenchner 強調，確保人工智慧輸出準確性的最佳方法是從各種具有可靠可靠性的公共來源獲取數據。他認為，當人工智慧模型僅使用單一或少數來源時，其知識可能不完整。倫奇納說：“擁有多個來源可以實現數據交叉引用，並建立更平衡、更具代表性的數據集。”

更重要的是，開發人員更加相信使用從網路匯入的資料是可以接受的。在去年冬天的一項法律裁決中，一名聯邦法官勝訴 Bright Data 曾因網路抓取活動遭到 Meta 的起訴。在這種情況下，他發現雖然 Facebook 和 Instagram 的服務條款禁止擁有帳戶的用戶抓取其網站，但沒有法律依據禁止已登出的用戶存取這些平台上的公開資料。

公共數據還具有有機性的優勢。在合成資料集中，較小的文化及其行為的複雜性更有可能被忽略。另一方面，現實世界中的人們產生的公共數據是真實的，因此可以轉化為更明智的人工智慧模型，從而實現卓越的性能。

沒有網路就沒有未來

最後，值得注意的是人工智慧的本質也在改變。正如 Lenchner 所指出的那樣，人工智慧代理在人工智慧應用中發揮著越來越重要的作用，幫助收集和處理用於人工智慧訓練的數據。他說，這樣做的好處不僅僅是消除開發人員繁重的手動工作，因為人工智慧代理的運行速度意味著人工智慧模型可以即時擴展其知識。

Lenchner 表示：“人工智慧代理可以改變各個行業，因為它們允許人工智慧系統訪問和學習網路上不斷變化的數據集，而不是依賴靜態和手動處理的數據。” “這可以催生銀行或網絡安全領域的人工智能聊天機器人，它們能夠做出反映最新現實的決策。”

如今，幾乎每個人都已經習慣了經常使用網路。它已成為一種重要資源，使我們能夠獲得數千種基本服務，並實現工作、交流等。如果人工智慧系統要超越人類的能力，它們就需要取得相同的資源，而網路是其中最重要的資源。

免責聲明：文章中的所有內容僅代表作者的觀點，與本平台無關。用戶不應以本文作為投資決策的參考。

PoolX：鎖倉獲得新代幣空投

不要錯過熱門新幣，且APR 高達 10%+

立即參與

您也可能喜歡

ICNTUSDT 現已上架合約交易和交易BOT

Bitget Announcement•2025/07/03 13:09

CBKUSDT 現已上架合約交易和交易BOT

Bitget Announcement•2025/07/03 10:40

Bitget 現貨槓桿新增 HFT/USDT！

Bitget Announcement•2025/07/03 05:40

享現貨槓桿每日免息！交易抽取最高 1,000 USDT！

Bitget Announcement•2025/07/02 09:30

人工智慧訓練資料稀缺並非問題所在

海量數據

挑戰和倫理問題

使用網路數據的案例

沒有網路就沒有未來

您也可能喜歡

熱門新聞

加密貨幣價格