Idiolekty sztucznej inteligencji – różnice w użyciu języka przez ChatGPT i Gemini

Wstęp

Spis treści

W językoznawstwie idiolekt jest to indywidualny dla każdej osoby styl wyrażania zależny od wielu czynników, w tym płci, wieku, języka ojczystego czy wykształcenia. Analiza idiolektów jest wykorzystywana w takich dziedzinach jak lingwistyka kryminalistyczna, w ramach której badania sposobu wyrażania się używane są do np. przypisywania autorstwa dokumentów czy wykrywania plagiatów.

Ostatnio przeprowadzone badania pokazały, że już nie tylko ludzie, ale również chatboty mogą wykształcić taki indywidualny styl, który pozwala na rozróżnienie autorstwa generowanych przez nie treści. Określenie, czy i jakie idiolekty używane są przez chatboty, pozwoli m.in. na lepsze wykrywanie ich użycia przez studentów czy autorów prac naukowych.

Badania nad tym, jakich stylów wyrażania się używają w języku angielskim ChatGPT i Gemini AI przeprowadziła dr Karolina Rudnicka, językoznawczyni z Wydziału Filologicznego Uniwersytetu Gdańskiego. Głównym obszarem jej badań jest zmienność języka (zwłaszcza w czasie i spowodowana wpływem nowych technologii). Artykuł na temat idiolektów AI jej autorstwa został opublikowany na stronie głównej prestiżowego czasopisma naukowego Scientific American.

Do badań wykorzystano opracowany przez Muhammada Naveed’a zbiór danych, w skład którego wchodzą setki krótkich tekstów na temat cukrzycy wygenerowanych przez ChatGPT i Gemini. Podobna długość oraz ten sam temat pozwalają na wykorzystanie ich jako danych do różnego rodzaju analiz, w tym analizy językoznawczej.

Według badaczki, aby prawidłowo przypisać autorstwo dużemu modelowi językowemu, należy poddać analizie nie tylko treść wygenerowanego tekstu, ale również jego formę (czyli wykorzystany język). Badania dr Rudnickiej pokazują, że można zaobserwować wyraźne różnice pomiędzy słownictwem i frazami używanymi przez ChatGPT i Gemini.

Jedną z metod wykorzystanych przez badaczkę była tzw. metoda Delta, czyli sprawdzanie częstotliwości występowania różnych rodzajów słów np. pokazujących relacje pomiędzy innymi słowami (i, to, z, że, dla) oraz dotyczących danego tematu np. cukier lub glukoza. Metoda ta pozwala na wychwycenie cech szczególnych danego idiolektu i określenie, czy dany tekst został napisany przez tego samego autora.

Kolejną metodą badawczą była analiza występowania charakterystycznych grup trzech słów (ang. trigrams) w danym tekście. Częstość występowania danych kombinacji słów jest również cechą charakterystyczną konkretnych idiolektów.

Zaobserwowano, że ChatGPT ma tendencje do wykorzystywania standardowych zasad gramatycznych oraz wyrażeń zapożyczonych z tekstów naukowych, natomiast wyraźnie unika slangu i kolokwializmów. W porównaniu do tekstów napisanych przez człowieka, ChatGPT nadużywa bardziej wyszukanych czasowników jak np. „delve” (badać, zagłębiać się), „align” (dostosować, dopasować, wyrównać) czy „underscore” (podkreślać, kłaść nacisk). Podobną tendencję widać w przypadku używanych przymiotników, jak np. „noteworthy” (godny uwagi), „versatile” (wszechstronny) czy „commendable” (chwalebny, godny pochwały). Frazy, których użycie zaobserwowano w tekstach generowanych przez ChatGPT również wskazują na wykorzystanie bardziej formalnego, akademickiego języka, np. „individuals with diabetes” (osoby chore na cukrzycę), „blood glucose levels” (poziom glukozy we krwi), „characterized by elevated” (charakteryzujący się podwyższonym) czy „an increased risk” (zwiększone ryzyko).

Natomiast w przypadku Gemini zaobserwowano tendencję odwrotną, czyli preferencję do wykorzystania prostszych słów i generowania tekstów w stylu bardziej potocznym. Na przykład Gemini używa takich wyrażeń jak: „high blood sugar” (wysoki poziom cukru) czy „blood sugar control (kontrola poziomu cukru), a słowo sugar (cukier) pojawia się dwa razy częściej niż glucose (glukoza). Co ciekawe, fraza „blood glucose levels” (poziom glukozy we krwi) pojawia się w tekście Gemini tylko raz – pokazuje to, że model ten zna to wyrażenie, ale z jakiegoś powodu nie używa go w generowanych tekstach.

Nie jest znana konkretna przyczyna powodująca powstawanie idiolektów u modeli AI. Polska badaczka wysuwa trzy możliwe teorie, które mogą wyjaśnić zachodzące zjawisko.

Pierwszą z nich jest tendencja do wybierania jak najprostszego sposobu wykonania danego zadania. Modele AI mogą po prostu korzystać ze słów i fraz, które najczęściej pojawiają się w ich danych treningowych i podobnie jak ludzie częściej używają swoich ulubionych wyrażeń, tak samo robią ChatGPT i Gemini.

Innym możliwym wyjaśnieniem jest tzw. priming, czyli zjawisko, które powoduje, że jeśli usłyszymy dane słowo lub frazę, jesteśmy bardziej skłonni ich użyć w naszych wypowiedziach.

Idiolekty sztucznej inteligencji mogą być również potencjalnym przykładem tzw. emergent abilities. Są to umiejętności, które choć nie były bezpośrednio częścią treningu AI, są wykazywane przez np. duże modele językowe.

Badania nad idiolektami sztucznej inteligencji są ważne z kilku powodów. Najbardziej oczywistym jest możliwość określenia, czy dany tekst został wygenerowany przez model AI oraz przypisania autorstwa konkretnemu chatbotowi. Fakt, że różne narzędzia AI używają indywidualnych stylów wyrażania jest również ważny w debacie nad potencjalnym osiągnięciem przez nie poziomu ludzkiej inteligencji. W tej dyskusji duże znaczenie ma to, czy idiolekty są tylko odzwierciedleniem danych treningowych, czy też charakterystyczne nawyki językowe rozwijają się, podobnie jak u ludzi, na podstawie doświadczenia.

Źródła:

scientificamerican.com

naukawpolsce.pl

 

 

 

Pomoc