<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>arena &#8211; Biznes Myśli</title>
	<atom:link href="https://biznesmysli.pl/tag/arena/feed/" rel="self" type="application/rss+xml" />
	<link>https://biznesmysli.pl/tag/arena/</link>
	<description>by Vladimir, sztuczna inteligencja w biznesie</description>
	<lastBuildDate>Wed, 17 Jul 2024 08:15:33 +0000</lastBuildDate>
	<language>pl-PL</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	

<image>
	<url>https://biznesmysli.pl/wp-content/uploads/2017/03/cropped-bm-sq-1-32x32.jpg</url>
	<title>arena &#8211; Biznes Myśli</title>
	<link>https://biznesmysli.pl/tag/arena/</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>Jaki model AI wybrać: wyzwania i rozwiązania?</title>
		<link>https://biznesmysli.pl/jaki-model-ai-wybrac-wyzwania-i-rozwiazania/</link>
					<comments>https://biznesmysli.pl/jaki-model-ai-wybrac-wyzwania-i-rozwiazania/#respond</comments>
		
		<dc:creator><![CDATA[Vladimir]]></dc:creator>
		<pubDate>Wed, 17 Jul 2024 07:00:00 +0000</pubDate>
				<category><![CDATA[LLM]]></category>
		<category><![CDATA[arena]]></category>
		<category><![CDATA[benchmark]]></category>
		<category><![CDATA[leaderboard]]></category>
		<category><![CDATA[machine learning]]></category>
		<category><![CDATA[metryka]]></category>
		<guid isPermaLink="false">https://biznesmysli.pl/?p=11447</guid>

					<description><![CDATA[<p>Praktyczne podejście do oceny modeli LLM Witam Cię w podcaście &#8222;Biznes Myśli&#8221;, nazywam się Vladimir Alekseichenko i w tym odcinku skupimy się na praktycznym aspekcie oceny modeli sztucznej inteligencji, ze szczególnym uwzględnieniem dużych modeli językowych (LLM). Przyjrzymy się fundamentom tej dziedziny i zastanowimy się, jak zadawać trafniejsze pytania dotyczące wyboru odpowiedniego modelu. Często słyszymy pytanie: &#8222;Który model jest lepszy?&#8222;. Jednak samo to pytanie nie jest do końca właściwe. To trochę tak, jakbyśmy pytali &#8222;Który model samochodu jest dla mnie najlepszy?&#8221;, nie precyzując, do czego ten samochód ma służyć. Podobnie jest z modelami AI &#8211; nie ma jednego uniwersalnego rozwiązania pasującego do wszystkich zastosowań. Warto pamiętać o słynnym powiedzeniu: &#8222;Wszystkie modele są złe, ale niektóre są użyteczne&#8221;. W praktyce oznacza to, że każdy model będzie się czasem mylić. Oznacza to, że każdy model będzie popełniał błędy. Tak, każdy model! Kluczowe jest zrozumienie, jak często będą występować błędy i jakie będą ich konsekwencje. Znaczenie eksperymentowania w uczeniu maszynowym Uczenie maszynowe to przede wszystkim dziedzina eksperymentowania. Zamiast pytać &#8222;czy można sprawdzić to czy coś innego?&#8221;, po prostu sprawdzamy różne konfiguracje i porównujemy wyniki. To podejście wymaga odpowiedniej metryki sukcesu, która pozwoli ocenić, który model jest lepszy w danym zastosowaniu. Wybór właściwej metryki jest kluczowy &#8211; to ona decyduje o tym, który model zostanie wybrany. Można to porównać do pilota lądującego w gęstej mgle, który musi polegać na precyzyjnie skalibrowanych przyrządach w kokpicie. Ewolucja modeli językowych Przełomowa publikacja &#8222;Attention is all you need&#8221; zapoczątkowała rozwój transformerów, które z kolei doprowadziły do powstania modeli GPT i innych&#160;LLM. Warto jednak pamiętać, że wcześniejsze prace również przyczyniły się do tego postępu. W miarę rozwoju&#160;LLM&#160;pojawiła się potrzeba ich dokładnej ewaluacji. Stąd wzięło się stwierdzenie &#8222;Eval is all you need&#8221; (ewaluacja to wszystko, czego potrzebujesz), podkreślające znaczenie oceny modeli (to oczywiście jest gra słów bazując na publikacje powyżej, ale też ważne skierowanie uwagi, na to co się&#160;liczy) autorstwa Grega z OpenAI. Benchmarki i ich ograniczenia Benchmarki to narzędzia pozwalające porównać różne modele na podstawie określonych metryk sukcesu. Jednak warto pamiętać o pewnym ważnym zastrzeżeniu: Wysoka pozycja modelu w benchmarku nie gwarantuje, że będzie on najlepiej rozwiązywał konkretne problemy biznesowe. Z drugiej strony, model, który wypada słabo w benchmarkach, prawdopodobnie nie sprawdzi się w praktycznych zastosowaniach (po prostu jest &#8222;słaby&#8221; wszędzie). Ta subtelna różnica jest często pomijana, gdy ludzie wyciągają wnioski na podstawie pojedynczych benchmarków. Wniosek: nawet jak model jest bardzo wysoko w benchmarkach, to wcale nie oznacza, że ten model rozwiąże dobrze Twój problem! W uczeniu maszynowym, w tym w&#160;LLM, wyróżniamy dwie fazy testowania: Choć dobre wyniki w testach offline są ważne, nie gwarantują one sukcesu w środowisku produkcyjnym. Dążymy do tego, aby wyniki z obu faz były porównywalne, choć nie jest to łatwe zadanie. Wyzwania w ocenie modeli generatywnych Ocena modeli generatywnych, takich jak&#160;LLM, jest znacznie bardziej złożona niż w przypadku klasycznych modeli uczenia maszynowego. W tradycyjnych modelach często mamy do czynienia z pojedynczą wartością wyjściową, którą łatwo porównać z oczekiwanym wynikiem. W przypadku modeli generatywnych, wyjście może być znacznie bardziej złożone &#8211; od pojedynczych zdań po całe paragrafy tekstu (też&#160;może być obrazek czy audio). Ocenie podlegają różne aspekty: Co więcej, nie zawsze istnieje jednoznaczna &#8222;prawidłowa&#8221; odpowiedź, szczególnie w przypadku pytań otwartych lub subiektywnych. Ocena finalnego produktu Warto pamiętać, że ocena samego modelu&#160;LLM&#160;to tylko część procesu. W praktyce biznesowej kluczowe jest ocenianie całego rozwiązania, które wykorzystuje&#160;LLM&#160;jako jeden z elementów. To właśnie efektywność końcowego produktu ma największe znaczenie z perspektywy biznesowej. W kolejnych częściach przyjrzymy się, jak podejść do oceny takich złożonych systemów, szczególnie gdy zaczynamy od zera. Zrozumienie tych wyzwań i odpowiednie podejście do ewaluacji pozwoli nam lepiej wykorzystać potencjał modeli językowych w praktycznych zastosowaniach. Ewolucja metryk oceny modeli językowych W świecie sztucznej inteligencji i modeli językowych, sposób oceny ich skuteczności przeszedł znaczącą ewolucję. Początkowo, w 2018 roku, pojawiły się metryki takie jak GLUE, SuperGLUE czy BLUE, które koncentrowały się na mierzeniu zdolności modeli do rozumienia tekstu. Jednak szybko okazało się, że te benchmarki były stosunkowo łatwe do pokonania przez coraz bardziej zaawansowane modele. Gdy modele zaczęły osiągać wyniki bliskie 100% w tych testach, pojawiła się potrzeba stworzenia trudniejszych wyzwań. W odpowiedzi na to powstały nowe metryki, takie jak MMLU (Measuring Massive Multitask Language Understanding), ARK, HellaSwag czy DROP. Miały one stanowić bardziej wymagające testy dla modeli&#160;AI. MMLU &#8211; nowe wyzwanie dla modeli językowych MMLU to szczególnie interesujący benchmark, składający się z 59 różnych zadań obejmujących szeroki zakres dziedzin, od historii po astronomię. Test polega na odpowiadaniu na konkretne pytania, wybierając jedną z czterech opcji. Co ciekawe, pytania te często okazują się trudne nawet dla ludzi, zwłaszcza tych, którzy dawno skończyli edukację formalną. Początkowo MMLU wydawał się obiecującym narzędziem do oceny modeli&#160;AI. Jednak z czasem ujawniły się pewne ograniczenia i problemy związane z tą metryką: Wyzwania w ocenie modeli językowych Badania wykazały, że niektóre modele, zwłaszcza te mniejsze, są podatne na &#8222;przeuczenie&#8221; się na podstawie publicznie dostępnych danych testowych. Prowadzi to do sytuacji, gdzie model może osiągać wysokie wyniki w teście, nie rozumiejąc faktycznie treści pytań. Innym problemem jest to, że benchmarki takie jak MMLU są zamknięte i skończone. Oznacza to, że największe firmy technologiczne mogą skupić się na optymalizacji swoich modeli pod kątem konkretnych pytań, co niekoniecznie przekłada się na rzeczywistą użyteczność w zastosowaniach biznesowych. W poszukiwaniu nowych rozwiązań Wobec tych wyzwań, branża&#160;AI&#160;poszukuje alternatywnych metod oceny modeli językowych. Jednym z pomysłów jest włączenie ludzi w proces ewaluacji, co mogłoby zapewnić bardziej kompleksową i realistyczną ocenę możliwości modeli. Mimo ograniczeń, benchmarki takie jak MMLU wciąż dostarczają cennych informacji. Jeśli model osiąga niskie wyniki w tych testach, prawdopodobnie będzie miał trudności również w rzeczywistych zastosowaniach. Przyszłość oceny modeli językowych z pewnością będzie wymagała bardziej zaawansowanych i dynamicznych metod, które lepiej odzwierciedlą rzeczywiste wyzwania stojące przed&#160;AI&#160;w praktycznych zastosowaniach. Nowe podejście do oceny modeli AI W obliczu wyzwań związanych z oceną modeli językowych, branża AI poszukuje innowacyjnych rozwiązań. Jednym z nich jest włączenie ludzi w proces ewaluacji, co jednak niesie ze sobą pewne trudności. Ludzka ocena może być niespójna &#8211; ta sama osoba może inaczej ocenić model rano, a inaczej wieczorem. Dlatego eksperci szukają alternatywnych metod. Okazuje się, że ludzie są szczególnie dobrzy w porównywaniu opcji. Podobnie jak w słynnym&#160;Pepsi Challenge&#160;z 1975 roku, gdzie porównywano Coca-Colę i Pepsi bez pokazywania marek, w ocenie modeli AI również kluczowe jest ukrycie ich nazw. ChatbotArena &#8211; przełom w ocenie modeli Jednym z najbardziej obiecujących rozwiązań jest ChatbotArena. To platforma, gdzie użytkownicy mogą porównać odpowiedzi dwóch anonimowych modeli na to samo pytanie. Andrzej Karpathy, znany ekspert AI, stwierdził nawet: &#8222;Ufam tylko ChatbotArenie&#8221;. Jak to działa? Użytkownik wpisuje zapytanie, np. &#8222;5 miejsc, które koniecznie warto odwiedzić w Krakowie&#8221; i otrzymuje dwie odpowiedzi &#8211; od modelu A i B. Następnie ocenia, która odpowiedź jest lepsza lub czy są równie dobre/złe. To podejście pozwala na bardziej obiektywną ocenę modeli. Obecnie w ChatbotArenie oceniono już 115 modeli. Wyzwaniem jest jednak zebranie wystarczającej liczby różnorodnych ocen, co wymaga czasu i zaangażowania wielu użytkowników. Hard Arena &#8211; automatyzacja oceny Aby przyspieszyć proces oceny, powstała koncepcja&#160;Hard Arena. Wykorzystuje ona dane zebrane z ChatbotAreny (1,5 miliona głosów) do stworzenia modelu, który automatycznie ocenia inne modele. Co ciekawe, okazało się, że zaawansowane modele, takie jak GPT-4, potrafią dość dobrze oceniać inne modele. Hard Arena opiera się na dwóch głównych kryteriach: Proces oceny w Hard Arena Proces oceny w Hard Arena wygląda następująco: Koszt pojedynczego testu w Hard Arena to około 20-30 dolarów, co jest znacznie tańsze i szybsze niż tradycyjne metody oceny przez ludzi. Nowe podejścia do ewaluacji modeli językowych, takie jak ChatbotArena i Hard Arena, otwierają fascynujące możliwości. Pozwalają na bardziej obiektywną, szybszą i tańszą ocenę, co z pewnością przyczyni się do dalszego rozwoju sztucznej inteligencji. Arena Learning i automatyzacja oceny modeli AI Arena Learning to podobne podejście do oceny modeli językowych, które ma na celu przyspieszenie procesu weryfikacji wprowadzanych zmian. Metoda ta wykorzystuje prompty i automatyczne ocenianie, co pozwala na szybsze sprawdzenie, czy modyfikacje faktycznie przyniosły pożądane efekty. Konkurs Kaggle &#8211; nowe spojrzenie na ocenę modeli Aktualnie trwa konkurs na platformie Kaggle, który wykorzystuje prompty z Areny oraz odpowiedzi modeli A i B. Celem uczestników jest stworzenie modelu, który najlepiej przewidzi zwycięzcę w pojedynku między dwoma modelami AI. Analiza danych z konkursu ujawniła interesujące zależności: Te obserwacje pokazują, że nawet najbardziej wiarygodne rankingi, takie jak Arena Leaderboard, mogą mieć pewne słabe punkty prowadzące do błędnych interpretacji. Praktyczne podejście do wdrażania modeli językowych Choć benchmarki i rankingi są pomocne, w rzeczywistości liczy się rozwiązanie konkretnego problemu biznesowego. Dlatego kluczowe jest stworzenie własnego leaderboardu, który uwzględnia specyfikę danego przedsięwzięcia. Oto trzy kroki, które pomogą w stworzeniu własnego systemu oceny: Ciągłe doskonalenie procesu oceny Pamiętaj, że tworzenie benchmarków to proces ciągły. Regularne przeglądy (np. co miesiąc lub kwartał) pomogą utrzymać aktualność danych i metryk. Warto również nadawać wersje lub nazwy kolejnym iteracjom leaderboardu, aby uniknąć nieporozumień przy porównywaniu wyników. Takie podejście pozwoli na bardziej świadome i efektywne wdrażanie modeli&#160;LLM&#160;w biznesie, minimalizując ryzyko i maksymalizując korzyści płynące z wykorzystania sztucznej inteligencji. Zbieranie informacji zwrotnej &#8211; klucz do sukcesu OpenAI, lider w dziedzinie modeli językowych, wyróżnia się nie tylko jakością swoich produktów, ale także umiejętnością zbierania cennych informacji zwrotnych. Ich podejście do analizy zachowań użytkowników jest godne naśladowania. Zwróć uwagę na to, jak OpenAI obserwuje interakcje z ich systemem. Możliwość postawienia &#8222;lajka&#8221;, skopiowania odpowiedzi czy wygenerowania jej ponownie to nie tylko udogodnienia dla użytkownika. To przede wszystkim narzędzia do zbierania bezcennych danych o satysfakcji i użyteczności generowanych treści. Kopiowanie odpowiedzi sugeruje, że treść była wartościowa. Z kolei prośba o ponowne wygenerowanie może wskazywać na niezadowalający rezultat. Te automatyczne mechanizmy zbierania&#160;feedbacku&#160;są często bardziej wartościowe niż bezpośrednie pytania zadawane użytkownikom po zakończeniu interakcji. Projektowanie interfejsu z myślą o danych Projektując własny interfejs, warto zainspirować się tym podejściem. Oprócz podstawowej funkcjonalności, jak możliwość wpisania zapytania, rozważ dodanie opcji: Zastanów się, jakie jeszcze działania użytkownika mogłyby dostarczyć ci cennych informacji o jakości i przydatności generowanych odpowiedzi. Struktura danych do oceny modeli LLM Tworząc własny zestaw danych do oceny modeli&#160;LLM, warto uwzględnić następujące elementy: Taka struktura pozwoli na wielowymiarową ocenę działania modelu, uwzględniającą nie tylko jakość samej odpowiedzi, ale także trafność doboru kontekstu czy zgodność ze stylem i wartościami firmy. Znaczenie własnych benchmarków Pamiętaj, że popularne benchmarki, takie jak te dostępne na&#160;Arena, mierzą jedynie ogólną jakość modeli&#160;LLM. Nie uwzględniają one specyfiki Twojego biznesu i konkretnych zastosowań. Wysoka pozycja modelu w ogólnym rankingu nie gwarantuje, że sprawdzi się on równie dobrze w Twoim przypadku. Z drugiej strony, niska pozycja w rankingu może sugerować, że model raczej nie będzie odpowiedni dla Twoich potrzeb. Trendy w ocenie modeli LLM Warto zwrócić uwagę na pojawiające się&#160;Enterprise Leaderboards&#160;&#8211; prywatne rankingi tworzone przez firmy, które przygotowują zestawy pytań i odpowiedzi z różnych dziedzin, np. finansów czy prawa. Choć mogą one być bliższe realnym zastosowaniom biznesowym niż ogólne benchmarki, nadal należy podchodzić do nich z ostrożnością. Brak transparentności co do metodologii i danych użytych do oceny może stanowić istotne ograniczenie. Narzędzia i zasoby Dla osób zainteresowanych automatyzacją procesu oceny modeli&#160;LLM, warto zapoznać się z takimi narzędziami jak: Istnieją również specjalistyczne benchmarki dla konkretnych zastosowań, np.: Podsumowanie Nie ma uniwersalnego rozwiązania &#8211; najlepszym podejściem jest stworzenie własnego systemu oceny, który będzie odpowiadał specyficznym potrzebom i celom Twojego biznesu. P.S. Poleć przynajmniej jednej osobie ten odcinek i też subskrybuj nas na YouTube.</p>
<p>Artykuł <a href="https://biznesmysli.pl/jaki-model-ai-wybrac-wyzwania-i-rozwiazania/">Jaki model AI wybrać: wyzwania i rozwiązania?</a> pochodzi z serwisu <a href="https://biznesmysli.pl">Biznes Myśli</a>.</p>
]]></description>
										<content:encoded><![CDATA[
<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe title="Jaki model AI wybrać: wyzwania i rozwiązania?" width="960" height="540" src="https://www.youtube.com/embed/eUIP2i0kxHo?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
</div></figure>


<div class="lazyblock-speaker-spotify-KVhyS wp-block-lazyblock-speaker-spotify"><div class="wp-block-columns are-vertically-aligned-center">
<div class="wp-block-column is-vertically-aligned-center">
<div class="wp-block-image"><figure class="aligncenter size-large is-resized"><a href="https://www.spreaker.com/episode/bm124-jaki-model-ai-wybrac-wyzwania-i-rozwiazania--60714740" target="_blank"><img decoding="async" src="https://biznesmysli.pl/wp-content/uploads/2020/02/spreaker.png" alt="" class="wp-image-2150" width="213" height="71"></a></figure></div>
</div>
<div class="wp-block-column is-vertically-aligned-center">
<div class="wp-block-image"><figure class="aligncenter size-large is-resized"><a href="https://open.spotify.com/episode/77XN6Plnh03EPJISfcHBMU" target="_blank"><img decoding="async" src="https://biznesmysli.pl/wp-content/uploads/2020/02/spotify-badge-button.png" alt="" class="wp-image-2149" width="192" height="93"></a></figure></div>
</div>
</div></div>


<h1 class="wp-block-heading">Praktyczne podejście do oceny modeli LLM</h1>



<p>Witam Cię w podcaście &#8222;Biznes Myśli&#8221;, nazywam się <a href="https://www.linkedin.com/in/vladimiralekseichenko/">Vladimir Alekseichenko</a> i w tym odcinku  skupimy się na praktycznym aspekcie oceny modeli sztucznej inteligencji, ze szczególnym uwzględnieniem dużych modeli językowych (<em>LLM</em>). Przyjrzymy się fundamentom tej dziedziny i zastanowimy się, jak zadawać trafniejsze pytania dotyczące wyboru odpowiedniego modelu.</p>



<p>Często słyszymy pytanie: &#8222;<strong>Który model jest lepszy?</strong>&#8222;. Jednak samo to pytanie nie jest do końca właściwe. To trochę tak, jakbyśmy pytali &#8222;Który model samochodu jest dla mnie najlepszy?&#8221;, nie precyzując, do czego ten samochód ma służyć. Podobnie jest z modelami AI &#8211; nie ma jednego uniwersalnego rozwiązania pasującego do wszystkich zastosowań.</p>



<p>Warto pamiętać o słynnym powiedzeniu: &#8222;Wszystkie modele są złe, ale niektóre są użyteczne&#8221;. W praktyce oznacza to, że każdy model będzie się czasem mylić. Oznacza to, że każdy model będzie popełniał błędy. Tak, każdy model! Kluczowe jest zrozumienie, jak często będą występować błędy i jakie będą ich konsekwencje.</p>



<figure class="wp-block-image size-large"><img decoding="async" fetchpriority="high" width="1024" height="342" src="https://biznesmysli.pl/wp-content/uploads/2024/07/2.all_models_wrong-1024x342.jpg" alt="" class="wp-image-11453" srcset="https://biznesmysli.pl/wp-content/uploads/2024/07/2.all_models_wrong-1024x342.jpg 1024w, https://biznesmysli.pl/wp-content/uploads/2024/07/2.all_models_wrong-300x100.jpg 300w, https://biznesmysli.pl/wp-content/uploads/2024/07/2.all_models_wrong-768x256.jpg 768w, https://biznesmysli.pl/wp-content/uploads/2024/07/2.all_models_wrong-1140x380.jpg 1140w, https://biznesmysli.pl/wp-content/uploads/2024/07/2.all_models_wrong.jpg 1400w" sizes="(max-width: 1024px) 100vw, 1024px" /></figure>



<h2 class="wp-block-heading">Znaczenie eksperymentowania w uczeniu maszynowym</h2>



<p>Uczenie maszynowe to przede wszystkim dziedzina eksperymentowania. Zamiast pytać &#8222;czy można sprawdzić to czy coś innego?&#8221;, po prostu sprawdzamy różne konfiguracje i porównujemy wyniki. To podejście wymaga odpowiedniej metryki sukcesu, która pozwoli ocenić, który model jest lepszy w danym zastosowaniu.</p>



<p>Wybór właściwej metryki jest kluczowy &#8211; to ona decyduje o tym, który model zostanie wybrany. Można to porównać do pilota lądującego w gęstej mgle, który musi polegać na precyzyjnie skalibrowanych przyrządach w kokpicie.</p>



<h2 class="wp-block-heading">Ewolucja modeli językowych</h2>



<p>Przełomowa publikacja &#8222;Attention is all you need&#8221; zapoczątkowała rozwój transformerów, które z kolei doprowadziły do powstania modeli GPT i innych&nbsp;<em>LLM</em>. </p>



<figure class="wp-block-image size-large"><img decoding="async" width="1024" height="793" src="https://biznesmysli.pl/wp-content/uploads/2024/07/4.attention_is_all_you_need-1024x793.png" alt="" class="wp-image-11454" srcset="https://biznesmysli.pl/wp-content/uploads/2024/07/4.attention_is_all_you_need-1024x793.png 1024w, https://biznesmysli.pl/wp-content/uploads/2024/07/4.attention_is_all_you_need-300x232.png 300w, https://biznesmysli.pl/wp-content/uploads/2024/07/4.attention_is_all_you_need-768x595.png 768w, https://biznesmysli.pl/wp-content/uploads/2024/07/4.attention_is_all_you_need-1536x1190.png 1536w, https://biznesmysli.pl/wp-content/uploads/2024/07/4.attention_is_all_you_need-2048x1587.png 2048w, https://biznesmysli.pl/wp-content/uploads/2024/07/4.attention_is_all_you_need-1140x883.png 1140w" sizes="(max-width: 1024px) 100vw, 1024px" /></figure>



<p></p>



<p>Warto jednak pamiętać, że wcześniejsze prace również przyczyniły się do tego postępu.</p>



<figure class="wp-block-image"><img decoding="async" src="blob:https://biznesmysli.pl/ad2193d9-3784-4384-badf-cbeabedb6305" alt=""/></figure>



<p>W miarę rozwoju&nbsp;<em>LLM</em>&nbsp;pojawiła się potrzeba ich dokładnej ewaluacji. Stąd wzięło się stwierdzenie &#8222;Eval is all you need&#8221; (ewaluacja to wszystko, czego potrzebujesz), podkreślające znaczenie oceny modeli (to oczywiście jest gra słów bazując na publikacje powyżej, ale też ważne skierowanie uwagi, na to co się&nbsp;liczy) autorstwa Grega z OpenAI.</p>



<figure class="wp-block-image size-large"><img decoding="async" width="1024" height="396" src="https://biznesmysli.pl/wp-content/uploads/2024/07/6.evals_motivation-1024x396.png" alt="" class="wp-image-11455" srcset="https://biznesmysli.pl/wp-content/uploads/2024/07/6.evals_motivation-1024x396.png 1024w, https://biznesmysli.pl/wp-content/uploads/2024/07/6.evals_motivation-300x116.png 300w, https://biznesmysli.pl/wp-content/uploads/2024/07/6.evals_motivation-768x297.png 768w, https://biznesmysli.pl/wp-content/uploads/2024/07/6.evals_motivation-1140x440.png 1140w, https://biznesmysli.pl/wp-content/uploads/2024/07/6.evals_motivation.png 1382w" sizes="(max-width: 1024px) 100vw, 1024px" /></figure>



<p></p>



<h2 class="wp-block-heading">Benchmarki i ich ograniczenia</h2>



<p>Benchmarki to narzędzia pozwalające porównać różne modele na podstawie określonych metryk sukcesu. Jednak warto pamiętać o pewnym ważnym zastrzeżeniu:</p>



<p>Wysoka pozycja modelu w benchmarku nie gwarantuje, że będzie on najlepiej rozwiązywał konkretne problemy biznesowe. Z drugiej strony, model, który wypada słabo w benchmarkach, prawdopodobnie nie sprawdzi się w praktycznych zastosowaniach (po prostu jest &#8222;słaby&#8221; wszędzie).</p>



<p>Ta subtelna różnica jest często pomijana, gdy ludzie wyciągają wnioski na podstawie pojedynczych benchmarków.</p>



<h3 class="wp-block-heading">Wniosek: nawet jak model jest bardzo wysoko w benchmarkach, to wcale nie oznacza, że ten model rozwiąże dobrze Twój problem!</h3>



<p>W uczeniu maszynowym, w tym w&nbsp;<em>LLM</em>, wyróżniamy dwie fazy testowania:</p>



<ol>
<li>Testowanie offline &#8211; wykorzystuje dane historyczne do treningu i walidacji modelu.</li>



<li>Testowanie online &#8211; ocenia model w rzeczywistych warunkach, gdy wchodzi w interakcje z użytkownikami.</li>
</ol>



<p>Choć dobre wyniki w testach offline są ważne, nie gwarantują one sukcesu w środowisku produkcyjnym. Dążymy do tego, aby wyniki z obu faz były porównywalne, choć nie jest to łatwe zadanie.</p>



<h2 class="wp-block-heading">Wyzwania w ocenie modeli generatywnych</h2>



<p>Ocena modeli generatywnych, takich jak&nbsp;<em>LLM</em>, jest znacznie bardziej złożona niż w przypadku klasycznych modeli uczenia maszynowego. W tradycyjnych modelach często mamy do czynienia z pojedynczą wartością wyjściową, którą łatwo porównać z oczekiwanym wynikiem.</p>



<p>W przypadku modeli generatywnych, wyjście może być znacznie bardziej złożone &#8211; od pojedynczych zdań po całe paragrafy tekstu (też&nbsp;może być obrazek czy audio). Ocenie podlegają różne aspekty:</p>



<ul>
<li>Czy to poprawna odpowiedź, np. gdy pytamy o stolicę kraju.</li>



<li>Czy odpowiedź jest relewantna &#8211; może być poprawna, ale nie na temat.</li>



<li>Czy styl wypowiedzi pasuje do oczekiwań &#8211; zbyt formalny, nieformalny itp.</li>



<li>Czy zawiera toksyczne elementy, obraźliwe słowa.</li>



<li>I wiele innych rzeczy, które jeszcze możemy sprawdzić</li>
</ul>



<p>Co więcej, nie zawsze istnieje jednoznaczna &#8222;prawidłowa&#8221; odpowiedź, szczególnie w przypadku pytań otwartych lub subiektywnych.</p>



<h2 class="wp-block-heading">Ocena finalnego produktu</h2>



<p>Warto pamiętać, że ocena samego modelu&nbsp;<em>LLM</em>&nbsp;to tylko część procesu. W praktyce biznesowej kluczowe jest ocenianie całego rozwiązania, które wykorzystuje&nbsp;<em>LLM</em>&nbsp;jako jeden z elementów. To właśnie efektywność końcowego produktu ma największe znaczenie z perspektywy biznesowej.</p>



<p>W kolejnych częściach przyjrzymy się, jak podejść do oceny takich złożonych systemów, szczególnie gdy zaczynamy od zera. Zrozumienie tych wyzwań i odpowiednie podejście do ewaluacji pozwoli nam lepiej wykorzystać potencjał modeli językowych w praktycznych zastosowaniach.</p>



<p></p>



<h2 class="wp-block-heading">Ewolucja metryk oceny modeli językowych</h2>



<p>W świecie sztucznej inteligencji i modeli językowych, sposób oceny ich skuteczności przeszedł znaczącą ewolucję. Początkowo, w 2018 roku, pojawiły się metryki takie jak GLUE, SuperGLUE czy BLUE, które koncentrowały się na mierzeniu zdolności modeli do rozumienia tekstu. Jednak szybko okazało się, że te benchmarki były stosunkowo łatwe do pokonania przez coraz bardziej zaawansowane modele.</p>



<figure class="wp-block-image size-large"><img decoding="async" width="1024" height="525" src="https://biznesmysli.pl/wp-content/uploads/2024/07/7.deberta-1024x525.png" alt="" class="wp-image-11457" srcset="https://biznesmysli.pl/wp-content/uploads/2024/07/7.deberta-1024x525.png 1024w, https://biznesmysli.pl/wp-content/uploads/2024/07/7.deberta-300x154.png 300w, https://biznesmysli.pl/wp-content/uploads/2024/07/7.deberta-768x394.png 768w, https://biznesmysli.pl/wp-content/uploads/2024/07/7.deberta-1536x787.png 1536w, https://biznesmysli.pl/wp-content/uploads/2024/07/7.deberta-1140x584.png 1140w, https://biznesmysli.pl/wp-content/uploads/2024/07/7.deberta.png 1682w" sizes="(max-width: 1024px) 100vw, 1024px" /></figure>



<p>Gdy modele zaczęły osiągać wyniki bliskie 100% w tych testach, pojawiła się potrzeba stworzenia trudniejszych wyzwań. W odpowiedzi na to powstały nowe metryki, takie jak MMLU (<em>Measuring Massive Multitask Language Understanding</em>), ARK, HellaSwag czy DROP. Miały one stanowić bardziej wymagające testy dla modeli&nbsp;<em>AI</em>.</p>



<h2 class="wp-block-heading">MMLU &#8211; nowe wyzwanie dla modeli językowych</h2>



<p>MMLU to szczególnie interesujący benchmark, składający się z 59 różnych zadań obejmujących szeroki zakres dziedzin, od historii po astronomię. Test polega na odpowiadaniu na konkretne pytania, wybierając jedną z czterech opcji. Co ciekawe, pytania te często okazują się trudne nawet dla ludzi, zwłaszcza tych, którzy dawno skończyli edukację formalną.</p>



<figure class="wp-block-image size-large"><img decoding="async" width="1024" height="784" src="https://biznesmysli.pl/wp-content/uploads/2024/07/8.mmlu_arxiv-1024x784.png" alt="" class="wp-image-11458" srcset="https://biznesmysli.pl/wp-content/uploads/2024/07/8.mmlu_arxiv-1024x784.png 1024w, https://biznesmysli.pl/wp-content/uploads/2024/07/8.mmlu_arxiv-300x230.png 300w, https://biznesmysli.pl/wp-content/uploads/2024/07/8.mmlu_arxiv-768x588.png 768w, https://biznesmysli.pl/wp-content/uploads/2024/07/8.mmlu_arxiv.png 1056w" sizes="(max-width: 1024px) 100vw, 1024px" /></figure>



<p>Początkowo MMLU wydawał się obiecującym narzędziem do oceny modeli&nbsp;<em>AI</em>. Jednak z czasem ujawniły się pewne ograniczenia i problemy związane z tą metryką:</p>



<ol>
<li>Modele zaczęły osiągać wyniki bliskie 100%, co ogranicza użyteczność testu.</li>



<li>Odkryto błędy w samym teście, gdzie niektóre pytania miały niepoprawne odpowiedzi lub były źle sformułowane.</li>



<li>Publiczna dostępność danych MMLU umożliwiła modelom &#8222;nauczenie się&#8221; odpowiedzi, co podważa wiarygodność wyników.</li>
</ol>



<h2 class="wp-block-heading">Wyzwania w ocenie modeli językowych</h2>



<p>Badania wykazały, że niektóre modele, zwłaszcza te mniejsze, są podatne na &#8222;przeuczenie&#8221; się na podstawie publicznie dostępnych danych testowych. Prowadzi to do sytuacji, gdzie model może osiągać wysokie wyniki w teście, nie rozumiejąc faktycznie treści pytań.</p>



<figure class="wp-block-image size-full"><img decoding="async" width="950" height="961" src="https://biznesmysli.pl/wp-content/uploads/2024/07/13.mmlu_not_good.png" alt="" class="wp-image-11459" srcset="https://biznesmysli.pl/wp-content/uploads/2024/07/13.mmlu_not_good.png 950w, https://biznesmysli.pl/wp-content/uploads/2024/07/13.mmlu_not_good-297x300.png 297w, https://biznesmysli.pl/wp-content/uploads/2024/07/13.mmlu_not_good-768x777.png 768w, https://biznesmysli.pl/wp-content/uploads/2024/07/13.mmlu_not_good-75x75.png 75w" sizes="(max-width: 950px) 100vw, 950px" /></figure>



<figure class="wp-block-image size-full"><img decoding="async" width="672" height="436" src="https://biznesmysli.pl/wp-content/uploads/2024/07/14.mmlu_not_good_example2.png" alt="" class="wp-image-11460" srcset="https://biznesmysli.pl/wp-content/uploads/2024/07/14.mmlu_not_good_example2.png 672w, https://biznesmysli.pl/wp-content/uploads/2024/07/14.mmlu_not_good_example2-300x195.png 300w" sizes="(max-width: 672px) 100vw, 672px" /></figure>



<p>Innym problemem jest to, że benchmarki takie jak MMLU są zamknięte i skończone. Oznacza to, że największe firmy technologiczne mogą skupić się na optymalizacji swoich modeli pod kątem konkretnych pytań, co niekoniecznie przekłada się na rzeczywistą użyteczność w zastosowaniach biznesowych.</p>



<figure class="wp-block-image size-large"><img decoding="async" width="1024" height="616" src="https://biznesmysli.pl/wp-content/uploads/2024/07/16.mmlu_not_good_example1-1024x616.png" alt="" class="wp-image-11461" srcset="https://biznesmysli.pl/wp-content/uploads/2024/07/16.mmlu_not_good_example1-1024x616.png 1024w, https://biznesmysli.pl/wp-content/uploads/2024/07/16.mmlu_not_good_example1-300x180.png 300w, https://biznesmysli.pl/wp-content/uploads/2024/07/16.mmlu_not_good_example1-768x462.png 768w, https://biznesmysli.pl/wp-content/uploads/2024/07/16.mmlu_not_good_example1-1140x686.png 1140w, https://biznesmysli.pl/wp-content/uploads/2024/07/16.mmlu_not_good_example1.png 1330w" sizes="(max-width: 1024px) 100vw, 1024px" /></figure>



<h2 class="wp-block-heading">W poszukiwaniu nowych rozwiązań</h2>



<p>Wobec tych wyzwań, branża&nbsp;<em>AI</em>&nbsp;poszukuje alternatywnych metod oceny modeli językowych. Jednym z pomysłów jest włączenie ludzi w proces ewaluacji, co mogłoby zapewnić bardziej kompleksową i realistyczną ocenę możliwości modeli.</p>



<p>Mimo ograniczeń, benchmarki takie jak MMLU wciąż dostarczają cennych informacji. Jeśli model osiąga niskie wyniki w tych testach, prawdopodobnie będzie miał trudności również w rzeczywistych zastosowaniach. </p>



<p>Przyszłość oceny modeli językowych z pewnością będzie wymagała bardziej zaawansowanych i dynamicznych metod, które lepiej odzwierciedlą rzeczywiste wyzwania stojące przed&nbsp;<em>AI</em>&nbsp;w praktycznych zastosowaniach.</p>



<p></p>



<h2 class="wp-block-heading">Nowe podejście do oceny modeli AI</h2>



<p>W obliczu wyzwań związanych z oceną modeli językowych, branża AI poszukuje innowacyjnych rozwiązań. Jednym z nich jest włączenie ludzi w proces ewaluacji, co jednak niesie ze sobą pewne trudności.</p>



<p>Ludzka ocena może być niespójna &#8211; ta sama osoba może inaczej ocenić model rano, a inaczej wieczorem. Dlatego eksperci szukają alternatywnych metod. Okazuje się, że ludzie są szczególnie dobrzy w porównywaniu opcji. Podobnie jak w słynnym&nbsp;<em>Pepsi Challenge</em>&nbsp;z 1975 roku, gdzie porównywano Coca-Colę i Pepsi bez pokazywania marek, w ocenie modeli AI również kluczowe jest ukrycie ich nazw.</p>


<div class="wp-block-image">
<figure class="aligncenter size-full"><img decoding="async" width="600" height="400" src="https://biznesmysli.pl/wp-content/uploads/2024/07/26.pepsi_.jpeg" alt="" class="wp-image-11462" srcset="https://biznesmysli.pl/wp-content/uploads/2024/07/26.pepsi_.jpeg 600w, https://biznesmysli.pl/wp-content/uploads/2024/07/26.pepsi_-300x200.jpeg 300w" sizes="(max-width: 600px) 100vw, 600px" /></figure></div>


<h2 class="wp-block-heading">ChatbotArena &#8211; przełom w ocenie modeli</h2>



<p>Jednym z najbardziej obiecujących rozwiązań jest ChatbotArena. To platforma, gdzie użytkownicy mogą porównać odpowiedzi dwóch anonimowych modeli na to samo pytanie. Andrzej Karpathy, znany ekspert AI, stwierdził nawet: &#8222;Ufam tylko ChatbotArenie&#8221;.</p>



<figure class="wp-block-image size-large"><img decoding="async" width="1024" height="288" src="https://biznesmysli.pl/wp-content/uploads/2024/07/29.karpathy_arena-1024x288.png" alt="" class="wp-image-11463" srcset="https://biznesmysli.pl/wp-content/uploads/2024/07/29.karpathy_arena-1024x288.png 1024w, https://biznesmysli.pl/wp-content/uploads/2024/07/29.karpathy_arena-300x84.png 300w, https://biznesmysli.pl/wp-content/uploads/2024/07/29.karpathy_arena-768x216.png 768w, https://biznesmysli.pl/wp-content/uploads/2024/07/29.karpathy_arena-1140x321.png 1140w, https://biznesmysli.pl/wp-content/uploads/2024/07/29.karpathy_arena.png 1166w" sizes="(max-width: 1024px) 100vw, 1024px" /></figure>



<p>Jak to działa? Użytkownik wpisuje zapytanie, np. &#8222;5 miejsc, które koniecznie warto odwiedzić w Krakowie&#8221; i otrzymuje dwie odpowiedzi &#8211; od modelu A i B. Następnie ocenia, która odpowiedź jest lepsza lub czy są równie dobre/złe. To podejście pozwala na bardziej obiektywną ocenę modeli.</p>



<figure class="wp-block-image size-large"><img decoding="async" width="1024" height="511" src="https://biznesmysli.pl/wp-content/uploads/2024/07/30.arena_battle-1-1024x511.png" alt="" class="wp-image-11464" srcset="https://biznesmysli.pl/wp-content/uploads/2024/07/30.arena_battle-1-1024x511.png 1024w, https://biznesmysli.pl/wp-content/uploads/2024/07/30.arena_battle-1-300x150.png 300w, https://biznesmysli.pl/wp-content/uploads/2024/07/30.arena_battle-1-768x384.png 768w, https://biznesmysli.pl/wp-content/uploads/2024/07/30.arena_battle-1-1536x767.png 1536w, https://biznesmysli.pl/wp-content/uploads/2024/07/30.arena_battle-1-1080x540.png 1080w, https://biznesmysli.pl/wp-content/uploads/2024/07/30.arena_battle-1-1140x569.png 1140w, https://biznesmysli.pl/wp-content/uploads/2024/07/30.arena_battle-1.png 1758w" sizes="(max-width: 1024px) 100vw, 1024px" /></figure>



<p>Obecnie w ChatbotArenie oceniono już 115 modeli. Wyzwaniem jest jednak zebranie wystarczającej liczby różnorodnych ocen, co wymaga czasu i zaangażowania wielu użytkowników.</p>



<h2 class="wp-block-heading">Hard Arena &#8211; automatyzacja oceny</h2>



<p>Aby przyspieszyć proces oceny, powstała koncepcja&nbsp;<em>Hard Arena</em>. Wykorzystuje ona dane zebrane z ChatbotAreny (1,5 miliona głosów) do stworzenia modelu, który automatycznie ocenia inne modele. Co ciekawe, okazało się, że zaawansowane modele, takie jak GPT-4, potrafią dość dobrze oceniać inne modele.</p>



<figure class="wp-block-image size-full"><img decoding="async" width="949" height="913" src="https://biznesmysli.pl/wp-content/uploads/2024/07/32.1paper_arena_hard.png" alt="" class="wp-image-11466" srcset="https://biznesmysli.pl/wp-content/uploads/2024/07/32.1paper_arena_hard.png 949w, https://biznesmysli.pl/wp-content/uploads/2024/07/32.1paper_arena_hard-300x289.png 300w, https://biznesmysli.pl/wp-content/uploads/2024/07/32.1paper_arena_hard-768x739.png 768w" sizes="(max-width: 949px) 100vw, 949px" /></figure>



<p>Hard Arena opiera się na dwóch głównych kryteriach:</p>



<ol>
<li>Automatyczny wybór powinien być jak najbardziej zbliżony do ludzkiego.</li>



<li>Wyniki powinny pozwalać na łatwe rozróżnienie między modelami (większa separowalność niż w tradycyjnych benchmarkach).</li>
</ol>



<h2 class="wp-block-heading">Proces oceny w Hard Arena</h2>



<p>Proces oceny w Hard Arena wygląda następująco:</p>



<ol>
<li>Wybór 200 000 promptów od użytkowników</li>



<li>Grupowanie promptów w 4000 klastrów tematycznych</li>



<li>Oczyszczanie i selekcja 250 najbardziej odpowiednich klastrów</li>



<li>Wybór 500 reprezentatywnych promptów do testów</li>
</ol>



<figure class="wp-block-image size-large"><img decoding="async" width="1024" height="496" src="https://biznesmysli.pl/wp-content/uploads/2024/07/33.arena_hard_pipeline-1024x496.png" alt="" class="wp-image-11465" srcset="https://biznesmysli.pl/wp-content/uploads/2024/07/33.arena_hard_pipeline-1024x496.png 1024w, https://biznesmysli.pl/wp-content/uploads/2024/07/33.arena_hard_pipeline-300x145.png 300w, https://biznesmysli.pl/wp-content/uploads/2024/07/33.arena_hard_pipeline-768x372.png 768w, https://biznesmysli.pl/wp-content/uploads/2024/07/33.arena_hard_pipeline-1536x745.png 1536w, https://biznesmysli.pl/wp-content/uploads/2024/07/33.arena_hard_pipeline-2048x993.png 2048w, https://biznesmysli.pl/wp-content/uploads/2024/07/33.arena_hard_pipeline-1140x553.png 1140w" sizes="(max-width: 1024px) 100vw, 1024px" /></figure>



<p>Koszt pojedynczego testu w Hard Arena to około 20-30 dolarów, co jest znacznie tańsze i szybsze niż tradycyjne metody oceny przez ludzi.</p>



<p></p>



<p>Nowe podejścia do ewaluacji modeli językowych, takie jak ChatbotArena i Hard Arena, otwierają fascynujące możliwości. Pozwalają na bardziej obiektywną, szybszą i tańszą ocenę, co z pewnością przyczyni się do dalszego rozwoju sztucznej inteligencji.</p>



<p></p>



<h2 class="wp-block-heading">Arena Learning i automatyzacja oceny modeli AI</h2>



<p>Arena Learning to podobne podejście do oceny modeli językowych, które ma na celu przyspieszenie procesu weryfikacji wprowadzanych zmian. Metoda ta wykorzystuje prompty i automatyczne ocenianie, co pozwala na szybsze sprawdzenie, czy modyfikacje faktycznie przyniosły pożądane efekty.</p>



<figure class="wp-block-image size-large"><img decoding="async" width="1024" height="496" src="https://biznesmysli.pl/wp-content/uploads/2024/07/34.arena_learning-1024x496.png" alt="" class="wp-image-11467" srcset="https://biznesmysli.pl/wp-content/uploads/2024/07/34.arena_learning-1024x496.png 1024w, https://biznesmysli.pl/wp-content/uploads/2024/07/34.arena_learning-300x145.png 300w, https://biznesmysli.pl/wp-content/uploads/2024/07/34.arena_learning-768x372.png 768w, https://biznesmysli.pl/wp-content/uploads/2024/07/34.arena_learning-1536x744.png 1536w, https://biznesmysli.pl/wp-content/uploads/2024/07/34.arena_learning-1140x552.png 1140w, https://biznesmysli.pl/wp-content/uploads/2024/07/34.arena_learning.png 2048w" sizes="(max-width: 1024px) 100vw, 1024px" /></figure>



<h2 class="wp-block-heading">Konkurs Kaggle &#8211; nowe spojrzenie na ocenę modeli</h2>



<p>Aktualnie trwa konkurs na platformie Kaggle, który wykorzystuje prompty z Areny oraz odpowiedzi modeli A i B. Celem uczestników jest stworzenie modelu, który najlepiej przewidzi zwycięzcę w pojedynku między dwoma modelami AI.</p>



<figure class="wp-block-image size-large"><img decoding="async" width="1024" height="559" src="https://biznesmysli.pl/wp-content/uploads/2024/07/35.kaggle_arena-1024x559.png" alt="" class="wp-image-11468" srcset="https://biznesmysli.pl/wp-content/uploads/2024/07/35.kaggle_arena-1024x559.png 1024w, https://biznesmysli.pl/wp-content/uploads/2024/07/35.kaggle_arena-300x164.png 300w, https://biznesmysli.pl/wp-content/uploads/2024/07/35.kaggle_arena-768x419.png 768w, https://biznesmysli.pl/wp-content/uploads/2024/07/35.kaggle_arena-1536x839.png 1536w, https://biznesmysli.pl/wp-content/uploads/2024/07/35.kaggle_arena-2048x1118.png 2048w, https://biznesmysli.pl/wp-content/uploads/2024/07/35.kaggle_arena-1140x622.png 1140w" sizes="(max-width: 1024px) 100vw, 1024px" /></figure>



<p>Analiza danych z konkursu ujawniła interesujące zależności:</p>



<ul>
<li>Dłuższe odpowiedzi miały większą szansę na zwycięstwo</li>



<li>Przy porównywalnej długości odpowiedzi, szanse na wygraną były zbliżone dla obu modeli</li>



<li>Gdy odpowiedź modelu A była krótsza, model B miał około 60% szans na zwycięstwo</li>
</ul>



<p>Te obserwacje pokazują, że nawet najbardziej wiarygodne rankingi, takie jak Arena Leaderboard, mogą mieć pewne słabe punkty prowadzące do błędnych interpretacji.</p>



<h2 class="wp-block-heading">Praktyczne podejście do wdrażania modeli językowych</h2>



<p>Choć benchmarki i rankingi są pomocne, w rzeczywistości liczy się rozwiązanie konkretnego problemu biznesowego. Dlatego kluczowe jest stworzenie własnego leaderboardu, który uwzględnia specyfikę danego przedsięwzięcia.</p>



<p>Oto trzy kroki, które pomogą w stworzeniu własnego systemu oceny:</p>



<ol>
<li>Przygotowanie danych:
<ul>
<li>Zbierz 50-100 przykładowych pytań od klientów</li>



<li>Przygotuj wzorcowe odpowiedzi z pomocą ekspertów</li>
</ul>
</li>



<li>Określenie metryk:
<ul>
<li>Zdefiniuj kryteria oceny odpowiedzi (np. poprawność, relewantność, styl)</li>



<li>Dostosuj metryki do celów biznesowych</li>
</ul>
</li>



<li>Stworzenie leaderboardu:
<ul>
<li>Połącz zebrane dane i wybrane metryki</li>



<li>Regularnie aktualizuj i weryfikuj skuteczność systemu</li>
</ul>
</li>
</ol>



<h2 class="wp-block-heading">Ciągłe doskonalenie procesu oceny</h2>



<p>Pamiętaj, że tworzenie benchmarków to proces ciągły. Regularne przeglądy (np. co miesiąc lub kwartał) pomogą utrzymać aktualność danych i metryk. Warto również nadawać wersje lub nazwy kolejnym iteracjom leaderboardu, aby uniknąć nieporozumień przy porównywaniu wyników.</p>



<p>Takie podejście pozwoli na bardziej świadome i efektywne wdrażanie modeli&nbsp;<em>LLM</em>&nbsp;w biznesie, minimalizując ryzyko i maksymalizując korzyści płynące z wykorzystania sztucznej inteligencji.</p>



<p></p>



<h2 class="wp-block-heading">Zbieranie informacji zwrotnej &#8211; klucz do sukcesu</h2>



<p>OpenAI, lider w dziedzinie modeli językowych, wyróżnia się nie tylko jakością swoich produktów, ale także umiejętnością zbierania cennych informacji zwrotnych. Ich podejście do analizy zachowań użytkowników jest godne naśladowania.</p>



<p>Zwróć uwagę na to, jak OpenAI obserwuje interakcje z ich systemem. Możliwość postawienia &#8222;lajka&#8221;, skopiowania odpowiedzi czy wygenerowania jej ponownie to nie tylko udogodnienia dla użytkownika. To przede wszystkim narzędzia do zbierania bezcennych danych o satysfakcji i użyteczności generowanych treści.</p>



<p>Kopiowanie odpowiedzi sugeruje, że treść była wartościowa. Z kolei prośba o ponowne wygenerowanie może wskazywać na niezadowalający rezultat. Te automatyczne mechanizmy zbierania&nbsp;<em>feedbacku</em>&nbsp;są często bardziej wartościowe niż bezpośrednie pytania zadawane użytkownikom po zakończeniu interakcji.</p>



<h2 class="wp-block-heading">Projektowanie interfejsu z myślą o danych</h2>



<p>Projektując własny interfejs, warto zainspirować się tym podejściem. Oprócz podstawowej funkcjonalności, jak możliwość wpisania zapytania, rozważ dodanie opcji:</p>



<ul>
<li>Kopiowania odpowiedzi</li>



<li>Oceny (np. poprzez &#8222;lajki&#8221;)</li>



<li>Ponownego generowania treści</li>
</ul>



<p>Zastanów się, jakie jeszcze działania użytkownika mogłyby dostarczyć ci cennych informacji o jakości i przydatności generowanych odpowiedzi.</p>



<h2 class="wp-block-heading">Struktura danych do oceny modeli LLM</h2>



<p>Tworząc własny zestaw danych do oceny modeli&nbsp;<em>LLM</em>, warto uwzględnić następujące elementy:</p>



<ol>
<li>Prompt (zapytanie użytkownika)</li>



<li>Oczekiwany output (wzorcowa odpowiedź)</li>



<li>Kontekst pomocniczy dla modelu</li>



<li>Wygenerowana odpowiedź</li>



<li>Wyciągnięty przez model kontekst (jeśli dotyczy)</li>
</ol>



<p>Taka struktura pozwoli na wielowymiarową ocenę działania modelu, uwzględniającą nie tylko jakość samej odpowiedzi, ale także trafność doboru kontekstu czy zgodność ze stylem i wartościami firmy.</p>



<h2 class="wp-block-heading">Znaczenie własnych benchmarków</h2>



<p>Pamiętaj, że popularne benchmarki, takie jak te dostępne na&nbsp;<em>Arena</em>, mierzą jedynie ogólną jakość modeli&nbsp;<em>LLM</em>. Nie uwzględniają one specyfiki Twojego biznesu i konkretnych zastosowań.</p>



<p>Wysoka pozycja modelu w ogólnym rankingu nie gwarantuje, że sprawdzi się on równie dobrze w Twoim przypadku. Z drugiej strony, niska pozycja w rankingu może sugerować, że model raczej nie będzie odpowiedni dla Twoich potrzeb.</p>



<h2 class="wp-block-heading">Trendy w ocenie modeli LLM</h2>



<p>Warto zwrócić uwagę na pojawiające się&nbsp;<em>Enterprise Leaderboards</em>&nbsp;&#8211; prywatne rankingi tworzone przez firmy, które przygotowują zestawy pytań i odpowiedzi z różnych dziedzin, np. finansów czy prawa. Choć mogą one być bliższe realnym zastosowaniom biznesowym niż ogólne benchmarki, nadal należy podchodzić do nich z ostrożnością. Brak transparentności co do metodologii i danych użytych do oceny może stanowić istotne ograniczenie.</p>



<h2 class="wp-block-heading">Narzędzia i zasoby</h2>



<p>Dla osób zainteresowanych automatyzacją procesu oceny modeli&nbsp;<em>LLM</em>, warto zapoznać się z takimi narzędziami jak:</p>



<figure class="wp-block-image size-large"><img decoding="async" width="1024" height="653" src="https://biznesmysli.pl/wp-content/uploads/2024/07/37.alpaca_farm-1024x653.jpg" alt="" class="wp-image-11469" srcset="https://biznesmysli.pl/wp-content/uploads/2024/07/37.alpaca_farm-1024x653.jpg 1024w, https://biznesmysli.pl/wp-content/uploads/2024/07/37.alpaca_farm-300x191.jpg 300w, https://biznesmysli.pl/wp-content/uploads/2024/07/37.alpaca_farm-768x490.jpg 768w, https://biznesmysli.pl/wp-content/uploads/2024/07/37.alpaca_farm-1140x727.jpg 1140w, https://biznesmysli.pl/wp-content/uploads/2024/07/37.alpaca_farm.jpg 1368w" sizes="(max-width: 1024px) 100vw, 1024px" /></figure>



<ul>
<li><em>Alpaca Farm</em>&nbsp;&#8211; framework do automatyzacji oceny</li>



<li><em>DeepEval</em>&nbsp;&#8211; biblioteka zawierająca przydatne zestawy narzędzi</li>
</ul>



<p>Istnieją również specjalistyczne benchmarki dla konkretnych zastosowań, np.:</p>



<ul>
<li><em>TTS Arena</em>&nbsp;dla konwersji tekstu na mowę</li>



<li><em>Long Code Arena</em>&nbsp;i&nbsp;<em>Live Code Bench</em>&nbsp;dla oceny modeli w kontekście programowania</li>
</ul>



<h2 class="wp-block-heading">Podsumowanie</h2>



<ol>
<li>W uczeniu maszynowym kluczowe jest eksperymentowanie i weryfikacja wyników.</li>



<li>Nie istnieją idealne modele ani metryki &#8211; ważne jest znalezienie tych, które są najbardziej przydatne w konkretnym przypadku.</li>



<li>Statyczne benchmarki mają ograniczoną wartość w ocenie najnowszych modeli&nbsp;<em>LLM</em>.</li>



<li><em>Arena Leaderboard</em>&nbsp;i podobne inicjatywy próbują rozwiązać problem oceny poprzez zaangażowanie ludzi.</li>



<li>Dla firm wdrażających&nbsp;<em>LLM</em>&nbsp;kluczowe jest stworzenie własnego, dostosowanego do potrzeb biznesowych systemu oceny.</li>
</ol>



<p></p>



<p>Nie ma uniwersalnego rozwiązania &#8211; najlepszym podejściem jest stworzenie własnego systemu oceny, który będzie odpowiadał specyficznym potrzebom i celom Twojego biznesu.</p>



<p></p>



<p>P.S. Poleć przynajmniej jednej osobie ten odcinek i też <a href="https://www.youtube.com/@DataWorkshop?view_as=subscriber?sub_confirmation=1">subskrybuj nas na YouTube</a>.</p>



<p></p>



<p></p>
<p>Artykuł <a href="https://biznesmysli.pl/jaki-model-ai-wybrac-wyzwania-i-rozwiazania/">Jaki model AI wybrać: wyzwania i rozwiązania?</a> pochodzi z serwisu <a href="https://biznesmysli.pl">Biznes Myśli</a>.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://biznesmysli.pl/jaki-model-ai-wybrac-wyzwania-i-rozwiazania/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
	</channel>
</rss>
