Parę dni temu pojawiły się doniesienia, że Microsoft korzysta z danych w dokumentach Office do trenowania swoich modeli AI. Naturalnie wywołało to wiele negatywnych reakcji, przy czym niektórzy zauważyli, że raport nie jest do końca dokładny. Okazało się, że mieli rację.
Według raportu @nixcraft, fana Linuksa, macOS, Linuksa, Open Source i nie tylko, Microsoft Office w ostatnich miesiącach włączył funkcję "opt-out", która "zeskrobuje" dane z dokumentów Word i Excel, aby szkolić swoje wewnętrzne systemy AI. Funkcja ma być domyślnie włączona i dopiero rezygnacja wymaga działania użytkownika. Jeśli jesteś pisarzem, który używa MS Word, aby pisać jakąkolwiek własnościową zawartość (posty na bloga, powieści lub jakakolwiek praca chroniona prawami autorskimi i/lub na sprzedaż), będziesz chciał(a) wyłączyć tę funkcję natychmiast – przekonuje autor.
Chodzi tu konkretnie o ustawienie, które znajdziemy w menu Plik > Opcje > Centrum zaufania > Ustawienia Centrum zaufania... > Opcje prywatności > Ustawienia prywatności... > Opcjonalne środowiska połączone. W tym miejscu należy wyłączyć opcję Włącz opcjonalne środowiska połączone – domyślnie włączoną. Czy rozwiąże to problem, o którym pisze @nixcraf?
Microsoft odpowiedział bezpośrednio na tego tweeta, pisząc: W aplikacjach M365 nie używamy danych klientów do trenowania LLMs. To ustawienie jedynie włącza funkcje wymagające połączenia z Internetem, takie jak współtworzenie dokumentu. Gigant udostępnił też link do wykazu wszystkich środowisk połączonych (connected experiences), takich jak fonty w chmurze, FAQs, efekty rysunku odręcznego, wstawianie ikon, Microsoft Forms, modeli 3D, zdjęć i wideo online oraz kalendarzy, sugestie lokalizacji, mapy w szczegółach wydarzenia, Pomoc Office, wyszukiwanie kształtów online, PowerPoint QuickStarter, Researcher, Tell Me, szablony, szacowany czas podróży, Weather Bar i pogoda w kalendarzu.
Oficjalna dokumentacja jest dość prosta i zwięzła. Skąd więc przekonanie, że Office prowadzi scraping danych dla AI? Prawdopodobnie niektórzy wywnioskowali tak na podstawie sformułowania "analizuje Twoją zawartość", zakładając, że oznacza to trenowanie modeli AI. A jako że dziś wszyscy mają obsesję na punkcie sztucznej inteligencji, firmy big tech muszą wyraźnie określać co robią, a czego nie robią z danymi klientów.