Loading...
tr usd
USD
-0.07%
Amerikan Doları
41,80 TRY
tr euro
EURO
-0.24%
Euro
48,50 TRY
tr chf
CHF
-0.51%
İsviçre Frangı
52,09 TRY
tr cny
CNY
0.03%
Çin Yuanı
5,86 TRY
tr gbp
GBP
-0.16%
İngiliz Sterlini
55,79 TRY
bist-100
BIST
-0.53%
Bist 100
10.663,44 TRY
gau
GR. ALTIN
1.42%
Gram Altın
5.481,49 TRY
btc
BTC
-0.05%
Bitcoin
114.902,41 USDT
eth
ETH
-0.07%
Ethereum
4.149,64 USDT
bch
BCH
0.35%
Bitcoin Cash
542,52 USDT
xrp
XRP
3.6%
Ripple
2,62 USDT
ltc
LTC
-1.19%
Litecoin
97,79 USDT
bnb
BNB
3.94%
Binance Coin
1.354,11 USDT
sol
SOL
0.06%
Solana
197,12 USDT
avax
AVAX
1.05%
Avalanche
22,75 USDT
  1. Haberler
  2. Teknoloji
  3. Samsung yapay zekâ benchmark çözümü TRUEBench’i tanıttı

Samsung yapay zekâ benchmark çözümü TRUEBench’i tanıttı

featured
samsung-yapay-zeka-benchmark-cozumu-truebenchi-tanitti.jpg
service
Paylaş

Bu Yazıyı Paylaş

veya linki kopyala

Samsung Electronics, yapay zekâ verimliliğini değerlendirmek üzere Samsung Research tarafından geliştirilen tescilli benchmark çözümü TRUEBench’i (Trustworthy Real-world Usage Evaluation Benchmark) tanıttı. TRUEBench, büyük dil modellerinin (LLM’ler) gerçek dünyadaki iş verimliliği uygulamalarında nasıl performans gösterdiğini ölçen kapsamlı bir metrik seti sunuyor. Çözüm, gerçekçi bir değerlendirme sağlamak için çeşitli diyalog senaryoları ve çok dilli koşullardan faydalanıyor. Samsung’un verimlilik çalışmalarında kullandığı kendi yapay zekâ teknolojilerini temel alan TRUEBench, içerik oluşturma, veri analizi yapma, özet çıkarma ve çeviri yapma gibi yaygın kullanılan kurumsal görevleri 10 temel kategori ve 46 alt kategoride değerlendiriyor. Benchmark, yapay zekâ destekli otomatik değerlendirmeler yaparak görevlere güvenilir bir puanlama veriyor. Bu değerlendirmeler, insan ve yapay zekâ iş birliği içinde tasarlanan ve geliştirilen kriterlere dayanıyor.

Samsung Electronics Dijital Deneyimler CTO’su ve Samsung Research Başkanı Paul (Kyungwhoon) Cheun, “Samsung Research, gerçek dünyadaki yapay zekâ deneyimleriyle müşterilerine güçlü bir uzmanlık ve rekabet avantajı kazandırıyor. TRUEBench’in üretkenlik işlerinde değerlendirme standartları oluşturacağına ve Samsung’un teknolojideki liderliğini daha da güçlendireceğine inanıyoruz” dedi. 

Son zamanlarda şirketler yapay zekâyı daha çok benimsedikçe büyük dil modellerinin üretkenliğini ölçme talebinde artış yaşanıyor. Ancak, çoğunlukla İngilizce odaklı olan mevcut kriterler öncelikle genel performansı ölçüyor ve tek turdan oluşan soru-cevap yöntemleriyle sınırlı bir değerlendirme yapıyor. Bu durum, bu değerlendirmelerin gerçek çalışma ortamlarını yansıtma doğruluğunu sınırlandırıyor. Bu sınırlamaları kaldırmak için geliştirilen TRUEBench hem 10 kategori ve 12 dilde çalışan 2.485 test setinden oluşuyor hem de diller arası senaryoları destekliyor. Test setleri, yapay zekâ modellerinin gerçekte hangi noktalara çözüm sunabileceğini inceliyor. Samsung Research’in geliştirdiği TRUEBench, kolay taleplerden uzun belgeleri özetlemeye kadar çeşitli görevleri inceliyor ve içeriği 8 karakterden 20.000 karakterin üzerine kadar değişen test setleri uyguluyor.

Yapay zekâ modellerinin performansını değerlendirirken yapay zekâ tarafından sağlanan yanıtların doğru olup olmadığını anlamaya imkân veren net kriterlere sahip olmak büyük önem taşıyor. Gerçek yaşam senaryolarında, kullanıcıların tüm istekleri, talimatlarda açıkça belirtilmeyebiliyor. Bu nedenle TRUEBench, yalnızca yanıtların doğruluğunu değil aynı zamanda kullanıcıların örtük ihtiyaçlarını gözeten ayrıntılı koşulları da dikkate alıyor ve gerçekçi değerlendirmeler yapıyor.

Gerçek insanlar ile yapay zekâ iş birliğiyle değerlendirme öğelerini doğrulayan Samsung Research çözümünde, ilk olarak, gerçek yorumcular değerlendirme kriterlerini oluşturuyor, ardından yapay zekâ bunları inceleyerek hataları, çelişkileri veya gereksiz kısıtlamaları kontrol ediyor. Daha sonra, gerçek yorumcular kriterleri tekrar daha iyi hale getiriyor. Bu süreç tekrarlanarak giderek daha hassas değerlendirme standartları oluşturuluyor. Söz konusu çapraz doğrulama kriterlerine dayanan yapay zekâ modellerinin otomatik değerlendirmesiyle kişisel önyargılar en aza indiriliyor ve tutarlılık sağlanıyor. Her testte, modelin değerlendirmeden geçebilmesi için tüm koşulların karşılanması gerekiyor. Bu da görevlerin daha ayrıntılı ve hassas puanlanmasını sağlıyor.

TRUEBench’in veri örnekleri ve puanlama tabloları, küresel açık kaynak platformu Hugging Face’de yer alıyor. Bu da kullanıcıların beş modele kadar karşılaştırma yapmasına ve yapay zekâ model performanslarını bir bakışta kapsamlı bir şekilde incelemesine imkân tanıyor. Ayrıca, ortalama yanıt süresi sonuçlarına ilişkin veriler de yayınlanıyor. Böylece, performans ve verimlilik eşzamanlı karşılaştırılabiliyor. 

 

 

 

 

Kaynak: (BYZHA) Beyaz Haber Ajansı

0
be_endim
Beğendim
0
dikkatimi_ekti
Dikkatimi Çekti
0
do_ru_bilgi
Doğru Bilgi
0
e_siz_bilgi
Eşsiz Bilgi
0
alk_l_yorum
Alkışlıyorum
0
sevdim
Sevdim
Sorumluluk Reddi Beyanı:

Pellentesque mauris nisi, ornare quis ornare non, posuere at mauris. Vivamus gravida lectus libero, a dictum massa laoreet in. Nulla facilisi. Cras at justo elit. Duis vel augue nec tellus pretium semper. Duis in consequat lectus. In posuere iaculis dignissim.

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir