Google потвърди, че обучава Bard на извлечени от интернет данни

Google потвърди, че обучава Bard на извлечени от интернет данни

В началото на седмицата Google разкри, че редица услуги на компанията с изкуствен интелект (ИИ), включително Bard и Cloud AI, може да са обучени с публични данни, извлечени от интернет пространството. Говорител на компанията споделя, че компанията има такава практика за обучение на езикови модели, включително и Google Translate.

От промяната в документите, свързани с условията по политиките за личните данни, се вижда заместването на термина "езикови модели" с "модели за ИИ". Така става ясно, че и големите езикови модели използват обществени данни за обучение.

Не се посочва как от компанията ще предотвратят използването на материали, защитени от авторското право. Много публичнодостъпни сайтове имат политики, които забраняват събирането на данни за целите на обучение на езикови модели и други решения с ИИ.

Интересно е как този подход работи с международни регулации, включително GDPR. Все още няма яснота дали доктрината за справедливо използване (fair use) може да се прилага и в случаите с обучение на ИИ. Има и неясноти относно обработката на големите обеми от събраните данни.

Две от големите социални мрежи например, Twitter и Reddit, предприеха мерки срещу свободното извличане на съдържание.

Източник: The Verge


Втора употреба с гаранция