OpenAI推出GPTBot网络爬虫来训练ChatGPT,但网站所有者可以阻止它

OpenAI推出了GPTBot,这是一个网络爬虫,将用于改进公司的AI模型,如ChatGPT。GPTBot 的设计比其他网络爬虫更注重隐私,它只会抓取已选择被抓取的网站。

“使用GPTBot用户代理抓取的网页可能会用于改进未来的模型,并被过滤以删除需要付费墙访问的来源,已知收集个人身份信息(PII)或包含违反我们政策的文本,”OpenAI在博客文章中说。

该功能允许网站运营商阻止OpenAI用于抓取其网站内容并使用它来训练其AI模型的网络爬虫。网络爬虫,称为GPTBot,可以通过在网站的Robots.txt文件中添加一行或阻止其IP地址来阻止。

OpenAI表示,此功能旨在尊重网站所有者的偏好,他们可能不希望他们的数据用于AI研究。不希望 GPTBot 抓取其网站的网站所有者可以将以下代码添加到他们的机器人.txt文件中:用户代理:GPTB – 禁止:/

他的功能可能是允许互联网用户选择是否希望他们的数据用于训练大型语言模型的第一步。这个问题一直是争议和辩论的根源,因为许多网站和创作者反对人工智能公司在未经他们同意或补偿的情况下使用他们的数据。

选择 AI 访问网站的方式

这方面的一些例子是Reddit和Twitter,它们试图限制人工智能公司免费使用其用户的帖子,以及作者和其他创意人员,他们起诉涉嫌未经授权使用他们的作品。数据隐私和同意问题也引起了立法者的注意,他们在上个月关于人工智能监管的几次参议院听证会上提出了这个问题。

一些公司和组织提出了不同的方法来将数据标记为不用于训练,例如DeviantArt去年提出的“NoAI”标签,或者Adobe倡导的反冒充法。包括OpenAI在内的人工智能公司也与白宫达成协议,开发一个水印系统,让人们知道某些东西是否是由人工智能产生的,但他们没有做出任何承诺停止使用互联网数据进行培训。

阻止 GPTBot 是网站所有者对其数据进行某种控制的一种方式,但它不会影响已经从其网站抓取并用于训练 ChatGPT 的数据。

未经允许不得转载:表盘吧 » OpenAI推出GPTBot网络爬虫来训练ChatGPT,但网站所有者可以阻止它