ChatGPT ja tietoturva

”Olisiko teillä hetki aikaa jutella ChatGPT:stä?”, vanhaa puhelinoperaattorin mainosta mukaillen. Viime viikkoina on tuntunut, että ChatGPT on vallannut jokaisen keskusteluketjun LinkedInissä ja Twitterissä. Tammikuussa käyttövalmiiksi kypsynyt ChatGPT on OpenAI-konsortion tekoälypalvelu, johon viitataan kätevällä LLM-termillä – Large Language Model. Taustalla on väitetysti 175 miljardia parametria, ja hillittömästi innovaatioita ja niiden yhteentörmäyttämistä. Älähtipä Meta-yhtiökin hiljan, että ChatGPT on semi-jees, mutta vain koska Google.

Mikä ChatGPT siis on?

Ihanaa, että kysyit! Useimmille – minä mukaan lukien – ChatGPT on keskivertokansalaista fiksumpi chatbot, joka osaa kaivaa ja käsitellä tietoa ”melkein mistä tahansa.” Taustalla on suunnilleen vuoden 2021 loppuun asti kerättyä aineistoa, jota on uitettu käyttökelpoiseen muotoon esimerkiksi Googlen alkujaan kehittämällä Transformer-mallilla. Eri juttu kuin Transformers-lelut. Ymmärtämättä ja menemättä yksityiskohtiin, ChatGPT on käytännössä https://chat.openai.com/ palvelu useimmille tällä hetkellä.

Olen ilokseni hypistellyt ChatGPT:tä saman palvelun kautta. Novelty-factor on aika kova – parin hypistelykerran jälkeen homma on nähty. Se ei silti tarkoita etteikö palvelu tässä muodossaan ole jo äärettömän käyttökelpoinen.

Tässä yksi ensimmäisiä todellisia käyttötapauksia ChatGPT:n kanssa itselläni – sisareni kirjoitti hienon tieteellisen artikkelin aiheesta, josta ymmärrän yhtä paljon kuin sika satelliitista. Otin abstraktin, ja kysyin ChatGPT:ltä siis mikä juttu?

Recanalization therapy, glucose uptake, post-TMCAO. Pää pehmenee kun tätä yrittää tulkita. Onneksi voin itse tehdä hommia IT-alalla, superhelppoa verrattuna tällaisiin teksteihin. Mitä ChatGPT sitten vastasi?

Tätä tekstiä tekoäly pohti hyvän tovin, ja teksti tuotettiin hitaammin kuin ehdin kotona lukea 5-vuotiaalle viisi iltasatua:

(Tarkkasilmäiset lukijat huomaavat 1/2 kappaleen alussa – ChatGPT:tä voi aina pyytää tuottamaan tekstin uudelleen, hieman eri tavalla).

OK, nythän asia on selvä! Palvelua voi käyttää hyvinkin luovasti – pastea chattiin läjä Stack Overflow’sta ’lainattua’ lähdekoodia, ja kysy mitä se tekee.

Onko ChatGPT siis vain chattipalvelu?

Ei todellakaan! ChatGPT:n käyttö tapahtuu nyt ensivaiheessa OpenAI:n hostaamana chatbottina. Siirretään sen sijaan perspektiiviä vähän kauemmas. Microsoft investoi hiljattain OpenAI:hin miljardeja, ja todennäköisesti varmisti samalla käyttöönsä ChatGPT:n ja muut OpenAI:n palvelut vuosiksi eteenpäin tietyllä eksklusiivisuudella.

Microsoft Azuresta löytyvät OpenAI Services on siis sama juttu – vielä toki melko rajatussa käytössä. Täältä voit vilkaista hakemuslomaketta, jos mielit saada näitä serviissejä käyttöön. Siinä sivussa Microsoft julkisti Bing-hakukoneen ChatGPT:llä toimivan palvelun, joka löytyy https://bing.com/new. Tässä erona lienee se, että lähdemateriaalia ei ole rajattu vain alkuperäisen ChatGPT:n datasettiin, vaan tietoa voidaan dynaamisemmin louhia käyttöön.

Onko ChatGPT tietoturvallinen?

Ei.

Kysymys on kuitenkin monisyinen. Voitko käyttää ChatGPT:tä (OpenAI:n palvelun kautta) ja generoida sieltä syntymäpäivärunon puolisolle? Voit. Voitko käyttää ChatGPT:tä ja kysyä vinkkejä palkkakeskusteluun pomon kanssa? Voit. Voitko käyttää ChatGPT:tä ja pyytää stilisoimaan tuotekehitykseen suunnittelemasi dokumentit? No et.

Lähtökohdaksi voidaan asettaa se, että kaikki Internetiin työntämäsi data on tavalla tai toisella aina jonkun saatavilla – tallennettuna, analysoituna, indeksoituna ja metadatoitettuna. ChatGPT:lle tungettu data jää takuuvarmasti talteen ja hyötykäyttöön.

Älä laita seuraavia asioita ChatGPT:lle, missään muodossa (Bingin kautta, OpenAI:n chat-palvelun kautta, API-rajapintojen kautta Azure OpenAI Servicesin kautta):

Salasanoja ja käyttäjätunnuksia
Lähdekoodia esim. oman yrityksen tuotteesta/ratkaisusta
Henkilötietoja missään muodossa
Mitään sellaista sensitiivistä dataa joka liittyy organisaation verkkoihin, sisäisiin palveluihin tai muuhun vähänkään suojattavaan tietoon

Samat neuvot pätevät tietysti myös vaikkapa Googlen hakukoneeseen.Vaan mitä sanoo Microsoft? Heillä on iso betti OpenAI:hin, ja toisaalta Microsoft on mielestäni ollut hyvin hereillä viime vuosina yksityisyydensuojan ja tietoturvan parissa. Tärkein aiheeseen liittyvä dokumentaatio löytyy täältä. Se on Lontooksi, joten poimitaan tärkeimmät.

Lainaus ”however, the customer is responsible for its use and the implementation of this technology” alleviivaa tulevaa – ole aina huolellinen, koska olet itse vastuussa datasta jota syötät palveluihin.

OpenAI-palvelu käsittelevät dataa esimerkiksi tekstipromptien välityksellä. Mutta palvelut käsittelevät dataa myös tulosdatan perusteella. Toisaalta tämä kohta valaa uskoa, että ihan kaikkea dataa jota asiakas tuottaa, ei kannibalisoida: ”Training data provided by the customer is only used to fine-tune the customer’s model and is not used by Microsoft to train or improve any Microsoft models.”

Dokumentti viittaa enemmän OpenAI:n rajapintoihin (eikä esimerkiksi ChatGPT-verkkopalveluun OpenAI:n kautta). Tekstipromptit, kyselyt ja vastaukset säilötään 30 vuorokauden ajaksi – salattuna toki. Toisaalta, kun asiakas ei voi itse validoida salausta (tai edes määritellä millä salausmekanismilla ja avaimilla toteutus tehdään), sen arvo on käytännössä nolla. Samalla Microsoft varaa myös oikeuden vilkuilla dataa, perustelluista syistä.

Erillinen Limited Access-kyvykkyys on olemassa, johon pääsyä tulee kuitenkin erikseen anoa. Mutta Microsoft ei tätä yksin tee – taustalla on aina tavalla tai toisella OpenAI. Mitäs ne tyypit sanoo? Yleisellä tasolla, samaa. Keskusteluita ChatGPT-botin kanssa voivat katsoa OpenAI:n omat asiantuntijat ”palveluita parantaakseen.” Vastaavasti jo käytyjä keskusteluita käytetään jatkokehittämiseen. Auts. Jos tunsit piston sisimmässäsi, voit käytä deletoimassa datasi OpenAI:sta täältä. Laajemmin yksityisyydensuojaa – ja miten dataa käytetään – on kuvattu täällä. Nopealla silmäilyllä aika laveat oikeudet varaavat itselleen.

Voiko ChatGPT:tä silti käyttää?

Kyllä voi. Huomioi data jota jaat palveluun/palvelun kautta. Laajemmassa kontekstissa ChatGPT ja muut OpenAI-palvelut kuten Codex ja DALL-E 2 ovat äärimmäisen hyödyllisiä tulevaisuuden työkaluja osana muuta tietotyötä. Huomioi kaikissa näissä tässä artikkelissa kuvatut datan käsittelypisteet. Käytä ja hyödynnä näitä palveluita siinä kontekstissa, jossa käyttäisit esimerkiksi Googlen kielenkäännöspalvelua – riittävän stilisoituna, ja riittävän geneerisenä apurina.

Voimmeko auttaa?

Me Not Bad Securityllä autamme yrityksiä ja organisaatioita turvaamaan ja suojaamaan käyttöympäristöt ja datat kustannustehokkaasti. Autamme mielellämme pohtimaan ChatGPT:n mahdollisuuksia tietoturvaa unohtamatta. Voit ottaa yhteyttä täältä.