Yapay zekanın gelişimi ve yayılması, diğer teknolojik ilerlemeleri geride bırakarak özellikle üretken yapay zeka ve büyük dil modelleri gibi alanları içine alarak bugüne kadar görülmemiş bir hızla ilerlemeye başladı.
Bu durumun, mevcut paradigmalara ve çözümlere büyük etki yapacağı ve geleneksel yapay zeka çözümlerinin etkinliğini azaltarak bu alanda çözümler sunan teknoloji sağlayıcılarının rekabet gücünü zayıflatacağı öngörülüyor. Dünyadaki büyük teknoloji firmalarının geliştirdiği çözümlerle tekelleşmesi ve bu alanda diğer ülkeleri bağımlı hale getirmesi ihtimaline karşı ise üretken yapay zekanın Türkiye'de etkin kullanılması, bu teknolojileri geliştiren ve alanında yurt dışı bağımsızlığı kazanmış bir ekosisteme sahip olunması, Milli Teknoloji Hamlesi açısından kritik önem taşıyor.
Yapay zekanın kullandığı kaynak dil, kültürel etki açısından son derece önemlidir. Dil modellerinin eğitiminde Türkçe'ye yeterince yer verilmemesi, kültürel açıdan önemli bir eksiklik olarak görülmektedir. Örneğin, Meta'nın modelinde Türkçe'nin ilk 16 dil içinde yer almaması ve OpenAI modelinin eğitiminde Türkçe kaynakların yalnızca yüzde 0,16 oranında kullanılması, bu durumu açıkça ortaya koymaktadır.
Bununla birlikte, Chat GPT gibi yapay zeka sistemlerinde kullanılan kodların genellikle Anglo-Sakson dillerinden gelmesi, yapay zekanın verdiği yanıtlarda ve sağladığı bilgilerde bu kültürün dünya görüşünün yansıtılmasına neden olabilir. Bu durum, çocukların bu dil modelleriyle etkileşime girmesi sonucunda Türk kültürü dışındaki birçok unsurla tanışmalarını sağlayabilir, ancak aynı zamanda kültürel yozlaşma riskini de artırabilir.
Bu nedenle, dil modellerinin eğitimi ve kullanımı konusunda daha dikkatli olunması gerekmektedir. Türk kültürüne ve değerlerine uygun içeriklerin üretilmesi ve dil modellerinin eğitiminde Türkçe'ye daha fazla yer verilmesi, yapay zekanın kültürel çeşitliliği artırırken, yerel kültürlere saygı duymasını sağlayabilir. Bu da kültürel çeşitliliği korurken, kültürel yozlaşma riskini en aza indirir.
TÜRK HASSASİYETLERİNİ DE TAŞIYAN BİR MODEL
Bu noktada TÜBİTAK BİLGEM tarafından çalışmaları yapılan "Türkçe Büyük Dil Modeli" stratejik önem taşıyor. Kurum, bu alanda "temel model" geliştiren ilk ve tek kurum olarak diğerlerinden ayrışıyor. Böylece, Türkçeyi iyi konuşmasının yanı sıra Türk kültürünü ve hassasiyetlerini de taşıyan bir model kullanıma hazırlanıyor.
Temel model, yapay zeka alanında, geniş bir veri seti üzerinde önceden eğitilmiş ve genel dil yapısını, sözcüklerin ve cümlelerin nasıl kullanıldığını öğrenmiş bir model olarak tanımlanıyor. Bu model, belirli bir dilin veya birden fazla dilin geniş bir kapsamını içeren verilerle eğitiliyor. Örneğin, bir Türkçe temel model, internette bulunan Türkçe metinler, kitaplar, makaleler ve daha fazlasını içeren verilerle eğitilebilirken bu eğitim sürecinde model, dilin temel kurallarını ve dil bilgisini öğrenerek, kelime dağarcığını zenginleştiriyor.
"Türkçe Büyük Dil Modeli" sayesinde, Türk örf ve adetlerini de içeren Türkçe verilerle zenginleştirilecek yapay zeka, Türkiye'nin hassasiyetlerine hakim olacak, yeni teknolojiler ve uygulamalarla genç nesilde oluşabilecek kültürel yozlaşmanın önüne geçilmesine katkı sağlayacak.
BÜYÜK DİL MODELLERİ ÜZERİNDE ÇALIŞMALAR YAPIYOR
Türkçe büyük dil modelinin geliştirilmesi için internet ve dijital kaynaklardan toplanan Türkçe metinlerle bir veri havuzu oluşturma çalışmaları devam ediyor. Bu proje kapsamında açık kaynaklı büyük dil modelleri üzerinde çalışmalar yapılıyor. Kaliteli bir Türkçe dil modeli oluşturmak için Türkçe'nin inceliklerini göz önünde bulunduran bir ön işleme aşaması geçirildi ve uygun derin öğrenme mimarisi seçildi.
Ayrıca, Türkçeye özgü bir "tokenizer" geliştirilerek, bu açık kaynaklı büyük dil modellerinin Türkçede etkin şekilde kullanılması sağlandı. Bu mimarinin parametre sayısı ve kullanılacak veriye oranı belirlendikten sonra model eğitimine başlandı.
Çalışmalar kapsamında eğitim süreci yakından takip edilirken, modelin farklı doğal dil işleme alanlarında (soru/cevap, özetleme, dil üretme, metin sınıflandırma gibi) farklı başarı metrikleriyle değerlendirilerek en iyi haline getirilmesi üzerinde duruluyor.
Atılan adımlarla Türkçesi gelişmiş, Türkiye'nin hassasiyetlerine hakim yapay zekanın, genç nesilde oluşabilecek kültürel yozlaşmanın önüne geçilmesine de katkı sağlaması hedefleniyor.