在明知YouTube母公司谷歌禁止用工具提取该平台内容的情况下Tuesday, November 19, 2024【举世时报特约记者 甄翔】《纽约时报》6日披露了科技公司演练人工智能的奥妙——运用语音识别器械转录视频网站YouTube上的视频,酿成对话文本数据,供其最新的AI研习。这是一条违反公法的“捷径”。
报道称,早正在2021年岁晚,OpenAI就面对培训AI模子的数据源险些陷入贫乏的境界。该公司揭竿而起,正在明知YouTube母公司谷歌禁止用器械提取该平台实质的处境下,转录了100众万条视频并天生GPT-4模子的研习原料,OpenAI创始人之一布罗克曼也介入此中。讪乐的是,谷歌得知OpenAI的作为却并未抑遏,由于其也正在提取YouTube平台实质演练AI模子。
《纽约时报》征引动静人士的话暗示,这大概侵凌视频版权,由于它们属于创作家。虽然如斯,越来越众的科技公司冒着面对诉讼的危急也要“走捷径”。报道称,遵照内部集会记实,Meta公司商定从互联网上搜聚受版权回护的数据,由于与出书商、艺术家、音乐家和消息行业就版权实质协商太花年华。
报道称,领先的AI模子必要从涵盖众达3万亿字的数字文本池中研习。有理会称,估计互联网上现有可供培训AI模子的数据最速到2026年就会耗尽。
《纽约时报》征引内部人士的动静称,谷歌公法部分一经哀求草拟新的策略,夸大该公司对消费者数据的用处。Meta的处境更苛格,其旗下脸书平台不是人们撰写著作的地方,可用数据不众。报道称,正在一次接头中,Meta高管讲到正在非洲约请承包商来汇总种种小说和非小说的文本摘要。Meta环球互帮与实质副总裁格鲁丁暗示:“独一造止咱们抵达ChatGPT秤谌的成分即是数据量。”
该公司揭竿而起,正在明知YouTube母公司谷歌禁止用器械提取该平台实质的处境下,转录了100众万条视频并天生GPT-4模子的研习原料。