Nastal je slovenski mini ChatGPT, ki tekst prebere tudi z dolenjskim naglasom

Digitalno 19. Okt 202410:26 1 komentar
dekle klepeta na laptopu
Foto: PROFIMEDIA

Na spletu lahko preizkusite prvega slovenskega klepetalnega robota. Robot (ali jezikovni model) se slovenščine še uči, odgovor pa vam lahko tudi prebere.

Umetna inteligenca z velikimi koraki vstopa v vse pore našega življenja.

Običajno navadni smrtniki ob omembi umetne inteligence največkrat pomislimo na klepetalne robote (klepetalnike ali jezikovne modele, kot jih tudi imenujejo). Teh je že kar lepo število. Večinoma operirajo v angleščini, a nekateri “razumejo” tudi druge jezike. Tako se z verjetno najbolj uporabljanim, ChatGPT, lahko pogovarjamo tudi v slovenščini, čeprav so včasih njegovi odgovori malce nerodni, tu in tam pa se zgodi, da moramo malce ugibati, kaj nam je odgovoril.

Slovenščina je zahteven jezik že za marsikaterega Slovenca ali Slovenko, kaj šele za klepetalnega robota. A ne le slovenščina, klepetalnim robotom predstavljajo kar precejšnjo težavo vsi jeziki, ki ne sodijo pod svetovne. Zato so se v tujini že marsikje lotili preizkušanja klepetalnih robotov, prilagojenih novim jezikom.

Spodbujen z razmišljanjem, da bi ustvarili klepetalnega robota, ki bi bolje razumel slovenščino in v njej tudi smiselno odgovarjal, ter s pozitivnimi poročili iz tujine, je Tomaž Savodnik, direktor nevladnega Zavoda za informacijsko družbo, lani takšnega robota začel razvijati. Imenoval ga je TinySLlama.

Robot se slovenščine še vedno uči, prevaja pa včasih že boljše kot “veliki”

“Zanimalo me je, ali se lahko takšna stvar naredi tudi v slovenskem jeziku,” je Savodnik povedal v pogovoru za N1. In očitno se lahko.

Na spletni strani https://ai.zid.si/ je predstavljena demo verzija robota, ki se še razvija. Kot je dejal Savodnik, ki je robota razvijal v svojem prostem času, namen TinySLlame ni tekmovati z velikimi modeli, ampak preveriti, ali je mogoče ustvariti majhen model, ki bo generiral besedilo v slovenščini, ki bo veliko bolj “tekoče” od besedila primerljivo velikih javno dostopnih modelov. “To je sedaj potrjeno,” je povedal Savodnik.

Ob tem dodaja, da je model še vedno precej okoren. Razlog za to je sorazmerno majhna količina parametrov. Zelo laično in po domače povedano so parametri baza, v katero robot shrani, kar se je naučil. V primeru TinySLlame je to slovenščina iz javno dostopnih virov na spletu.

Za primerjavo: slovenski robot razpolaga z eno milijardo parametrov, ChatGPT 3.5 s 175 milijardami. Zato je slovenski robot v primerjavi z “velikim bratom” manj zmogljiv pri kompleksnem sklepanju ali obsegu dejstev, ki jih lahko prikliče, je dejal Savodnik. Kljub temu nekatere naloge – recimo prevajanje v slovenščino – opravi bolje kot njegov “veliki brat”. “Slovenski jezik ima veliko posebnosti,” je pojasnil Savodnik. “Ena od teh je dvojina, ki je naš unikum. In zato je TinySLlama, ki se uči iz slovenskih tekstov, precej boljši kot veliki sistemi, ki se učijo (večinoma) iz angleščine.”

Čeprav klepetalni roboti dajejo vtis, da se z nami pogovarjajo, kot bi bil na drugi strani človek, v resnici to počnejo precej po delih. Ugibajo namreč, katera beseda ali besedna zveza je najbolj verjetna in pri tem uporabljajo vzorce, ki so se jih naučili iz primerov. Več kot je primerov, boljši je pogovor. Recimo, da klepetalnemu robotu postavimo nalogo, naj nam napiše recept za špagete po bolonjsko, mora najprej razumeti, kaj od njega želimo, in potem dati tudi smiseln odgovor.

Robotov recept za špagete po bolonjsko

Pravzaprav smo to naredili tudi sami.

N1: Mi lahko napišeš recept za špagete bolognese.

TinySLlama: Tukaj je preprost recept za špagete bolognase, ki ga lahko poskusite doma:

Sestavine: – 1 pločevinka (18,5 oz) narezanih paradižnikov – 1 čebula, narezana – 1 česnek, mlet – 1 pločevinka cukinija, narezana – 1 pločevinka mletega rdečega paprika – 1 pločevinka kosov govejega mesa, izrezanega – 1 pločevinka paradižnikove omake – 1 pločevinka italijanske kuhinje – 1 pločevinka slanine, narezana – 1 pizza škrob, narezana – 1 pizzini kos, narezana – 1 pizzo čebula, narezana – Sol in poper po okusu – Sveži listji bazilike za okras

V srednji posodi skuhajte paradižnikovo omako, italijansko kuhinjo in slanino, dokler se ne zmehča, približno 5 minut. 2. v velikem loncu segrejte oljčno olje na srednji ogenj. Dodajte narezano čebulo in mlet česen in kuhajte, dokler ne postane mehka, približno 5 min. 3. dodajte cukini, rdeči paprik in kose govejega mesa v lonček in kuhajte, dokler se ne segreje, približno 5 min, občasno mešajte. 4. v lonček dodajte paradižnikovo omako in italijansko kuhinjo in kuhajte še 5 minut, občasno mešajte, da se omaka ne prismodi. 5.

Odgovor je res precej okoren, a tudi zabaven, kljub temu pa dovolj smiseln, da bi ga lahko uporabili za pripravo špagetov po bolonjsko.

“Model ima še marsikatero težavo, saj se še vedno uči,” je pojasnil Savodnik in dodal, da TinySLlame ni učil klepeta, ampak izvajanja posameznih navodil. “Uči se razumeti in izvesti jasna navodila, kot so: prevedi ta stavek ali povzemi ta odstavek. Glavni poudarek je na natančnosti in doslednosti pri izpolnjevanju teh specifičnih zahtev,” je dejal. Kljub temu se pri njegovi uporabi javljajo tudi elementi klepeta oziroma pogovora, kot bi ga imeli s človeškim sogovornikom.

N1: Ali je bolje kupiti rabljen ali nov avtomobil?

TinySLlama: Odločitev, ali kupiti rabljen ali nov avto, je odvisna od številnih dejavnikov, vključno z vašim proračunom, življenjskim slogom in zahtevami vozila.

Če imate proračun, ki ga lahko upravljate, je lahko nakup rabljenega avtomobila boljša možnost, saj boste imeli jamstvo in ugledno zgodovino avtomobila, kar pomeni, da boste dobili dober posel za svoj denar.

Slovenski klepetalnik na telefonu ali domačem računalniku je lahko prednost

Kot rečeno, slovenski klepetalni robot za zdaj nima ambicij, da bi konkuriral velikim modelom.

Zaradi majhnosti bi njegovo aplikacijo nekoč lahko imeli tudi na mobilnih telefonih, vsekakor pa bi tekel na vsakem srednje zmogljivem igričarskem računalniku, je razložil Savodnik. “Ker gre še vedno za osnovni model, ki se ni specializiral za določeno opravilo, bi ga bilo mogoče prilagoditi za specifične naloge, ki bi jih lahko izvajal bistveno bolj učinkovito kot večji modeli,” je prepričan. Kot primer navede prav recept za špagete. “Če bi se na primer učil iz baze, ki ima na voljo dovolj veliko število receptov – recimo kulinaričnega portala, bi veliko hitreje razumel, kaj hočemo od njega, in nam nekoč morda naredil svoj recept za špagete, ki bi bil nekaj novega,” je pojasnil avtor slovenskega klepetalnega robota.

N1: Kdaj so ljudje pristali na Luni?

TinySLlama: Ljudje so pristali na Luni 20. julija 1969.

N1: Ali lahko poveš o tem kaj več?

TinySLlama: NASA-jev vesoljski raketoplan Challenger je 28. januarja 2003 padel v Tihi ocean, ko je poskušal ponovno pristati na Luni.

N1: Challenger ni poskušal ponovno pristati na Luni.

TinySLlama: Challenger ni poskušala ponovno pristati na Luni, saj je bil vesoljski raketoplan, ki je bil zasnovan za izvajanje vesoljskih raziskovalnih in znanstvenih poskusov, ne pa za pristanek na Luni.

Seveda pa je nadaljnji razvoj odvisen od marsičesa. Poglavitna sta seveda čas in denar.

Projekta ni financirala država, razvoj pa poleg časa za učenje pomeni tudi vlaganje v opremo, ki ni poceni. Poleg tega bi moral biti izkazan tudi interes. “Model bi lahko specializirali za potrebe določenega uporabnika in mu tako ponudil boljšo uporabniško izkušnjo v domačem jeziku, kot jo trenutno ponujajo veliki tuji sistemi,” je povedal Savodnik.

Poleg tega je možnost, da bi nekoč slovenskega klepetalnega robota uporabljali na svojem računalniku ali telefonu, ugodna tudi z vidika zasebnosti, je pojasnil.

Podal je tudi primer: “Ko na splet damo neke podatke, nimamo več popolnega nadzora nad njimi in tem, kaj utegne nekdo z njimi narediti. Recimo da kot novinar želite, da vam klepetalni robot prevede neko besedilo, ki je v zvezi s člankom, ki ga pripravljate. Tako vanj vnesete besedilo. Ta podatek se tako prenese na splet in nekdo, ki je dovolj zainteresiran za to, kar počnete, lahko ta podatek pridobi in razbere, kaj pripravljate. S klepetalnim robotom na domači, zasebni napravi ta skrb odpade.”

Odgovor vam lahko prebere tudi z dolenjskim naglasom

Hkrati s klepetalnim robotom je Savodnik razvil tudi robota za sintezo govora – po domače, robota, ki na glas prebere tekst. Ta je vključen tudi v klepetalnega robota, kjer lahko odgovore, ki jih robot napiše, tudi slišite. Na voljo je več različnih glasov, med njimi tudi eden z razpoznavnim dolenjskim naglasom.

Poleg TinySLlame je v pripravi tudi velik jezikovni model za slovenščino, ki ga v okviru projekta Povejmo koordinira Fakulteta za računalništvo in informatiko v Ljubljani, financira pa država. Projekt je v fazi zbiranja besedil, iz katerih se bo model učil slovenščine. Avtorji projekta želijo zbrati 40 milijard besed. Doslej so jih, po podatkih njihove spletne strani, zbrali 9,2 milijarde oziroma slabo četrtino.

Dragi bralci in bralke, pomagajte nam izboljšati N1

Kaj pogrešate, kaj vam je všeč, česa ne marate? Pripravili smo kratko anketo o zadovoljstvu bralcev, reševanje traja približno pet minut, anketa pa je anonimna. Povezava do ankete: https://n1slovenija.1ka.si/raziskava-branosti

Kakšno je tvoje mnenje o tem?

Sodeluj v razpravi ali preberi komentarje