Uczenie się a podejmowanie decyzji
Marcin Żmigrodzki
Wprowadzenie
Miliony kilometrów od Ziemi. Załoga promu kosmicznego stoi przed dylematem: zboczyć z kursu, aby zbadać napotkany wrak statku poprzedniej ekspedycji, czy nie. Wariant pierwszy rodzi zagrożenia związane z nieplanowanymi manewrami gigantycznym statkiem, lecz daje szansę dowiedzenia się, czemu poprzednikom nie udało się wykonać misji. Wariant drugi grozi popełnieniem tego samego błędu. Proces podejmowania tej trudnej decyzji przebiegł w następujący sposób:
- Głosujmy - rzucił mechanik, podnosząc rękę.
- Nie będzie żadnego głosowania - przerwał kapitan. - Kto ma największe kompetencje do oceny tej sytuacji?
Oczy wszystkich skierowały się na fizyka.
- Ja nie mogę podjąć takiej decyzji. Nie kieruję misją, nie odpowiadam za jej rezultat.
- Ale posiadasz największą wiedzę! - odparł kapitan. - Twoja decyzja? (...)
Niestety, podjęta przez fizyka decyzja okazała się błędna i cała załoga musiała ponieść jej koszt, ale wówczas jego odpowiedzialność nie miała już znaczenia. Odpowiedzialność fizyka za decyzję przestała mieć znaczenie już w momencie rozpoczęcia realizacji jego decyzji.
Ten fragment jednej ze scen filmu obrazowo pokazuje zależności między wiedzą, decyzyjnością i odpowiedzialnością w złożonym i dynamicznie zmiennym środowisku. W dynamicznie zmieniającym się otoczeniu organizacja chcąca nadążać, a nawet nadawać kierunek zmianom na rynku, musi równie szybko adaptować się do nich. Oznaczać to może konieczność zmiany sposobu postrzegania tego, czym jest zarządzanie w organizacji. W artykule Przepływ informacji i decyzji w przedsiębiorstwie zaprezentowano propozycję tzw. paradygmatu dynamiki w zarządzaniu, u podstaw którego położono model informacyjno-decyzyjny, wspomniany tam jedynie skrótowo1. Paradygmat dynamiki mówi o uwarunkowaniach zarządzania organizacją w skrajnie zmiennym środowisku, w którym, aby utrzymać przewagę konkurencyjną, trzeba nie tylko zwiększać skalę, optymalizować bieżące działania (m.in. procesy), ale i innowacyjnie zmieniać zasady pracy. To z kolei powoduje, że dla podejmowania optymalnych decyzji krytyczne staje się posiadanie przez wielu pracowników dużej wiedzy. Już nie wystarcza, aby kluczowe kompetencje posiadał tylko właściciel firmy lub kadra menadżerska. W warunkach silnego "nasycenia" pracy wiedzą, zarządzanie powinno uwzględniać trzy kluczowe aspekty: koszt pozyskania informacji i jej analizy, czas potrzebny na znalezienie i przyswojenie tych informacji oraz możliwy do uzyskania z nich zwrot2. Kompetencje pracowników przejawiają się w zdolnościach do uzyskania określonego zwrotu z danej sytuacji decyzyjnej w określonym czasie, za określone pieniądze. Zadaniem menadżera jest taki dobór ludzi i informacji, aby jak najlepiej i w jak najkrótszym czasie wykorzystać posiadane pieniądze dla wygenerowania zwrotu.
Poniżej zaprezentowano model podejmowania decyzji będący rozwinięciem tez przedstawionych we wspomnianym artykule, które zmierzają w kierunku opracowania modelu informacyjno-decyzyjnego (dalej określany w skrócie model I-D). Pominięto aspekt kosztu i czasu pozyskania informacji, natomiast skupiono się na schemacie decyzyjnym stosowanym przez decydenta dla osiągnięcia zamierzonego zwrotu.
Uwarunkowania modelu
Menadżerowie dziesiątki razy dziennie stają przed koniecznością podejmowania decyzji, czyli wyboru wariantu działania spośród kilku dostępnych. Decyzje warunkują zarówno sprawność działania pojedynczego człowieka, jak też całej organizacji. Efektywność organizacji znajduje swoje źródło w setkach decyzji podejmowanych przez jej pracowników. Jednym z problemów, z którymi borykają się decydenci, jest niedostatek informacji potrzebnych do wyboru optymalnego wariantu. Jednocześnie decydenci zmuszeni są patrzeć coraz dalej w przyszłość, aby lepiej planować swoje działania, co z kolei ogranicza dostęp do informacji. Przy skrajnej niepewności podejmowanie decyzji zaczyna przypominać wróżenie z fusów czy rzucanie kostką. Poniższy model ma na celu racjonalizację trudnej sytuacji decyzyjnej współczesnego menadżera oraz wskazanie, jakie ona rodzi konsekwencje.
Celem utworzenia modelu jest chęć zastanowienia się, jak wyglądałoby podejmowanie decyzji, gdyby kluczowym czynnikiem osiągania przewagi konkurencyjnej była wiedza posiadana przez pracowników organizacji, a więc w jaki sposób organizacje mogłyby poprawić efektywność swojego działania.
Przy jego tworzeniu przyjęto założenie, że decydent jest racjonalny w tym sensie, że stara się podejmować decyzje o jak największym zwrocie i ów zwrot jest zgodny z interesem organizacji, czyli decydent unika decyzji szkodliwych dla organizacji i nieracjonalnych.
Model podejmowania decyzji
W omawianym modelu przyjmuje się, że podjęcie decyzji może dać decydentowi pewien zwrot oznaczony symbolem E. Jest on jednakże nieznany w momencie podejmowania decyzji, więc decydent musi dokonywać szacunku tego zwrotu E*. Należy pamiętać, że jest to jedynie szacunek - bywa on zatem obarczony błędem p.
W niniejszym artykule wprowadza się poniższy schemat postępowania decydenta:
- Decydent analizuje sytuację problemową, w której musi lub chce podjąć jakąś decyzję.
- Co pewien czas t znajduje nowy wariant działania (potencjalną decyzję), który dodaje do zbioru już mu znanych.
- Dla każdego wariantu szacuje zwrot z niego Ed*. Każdy wariant ma też przypisany faktyczny zwrot Ed, który można osiągnąć, gdyby został wybrany. Rzecz jasna zwrot faktyczny Ed jest nieznany decydentowi.
- Następnie decydent decyduje, czy podjąć decyzję o największym szacowanym zwrocie Ed* spośród już znalezionych wariantów, czy też dalej szukać nowych rozwiązań.
- Decydent dotąd poszukuje nowych wariantów działania, aż zadziała przyjęta przez niego reguła stopu. Na przykład zgodnie z zasadą racjonalnej ignorancji może przyjąć, że przerywa analizę danej sytuacji decyzyjnej, gdy potencjalny wzrost korzyści z kolejnego wariantu jest mniejszy od pierwszego wariantu dla kolejnej sytuacji decyzyjnej, która czeka na analizę.
Schematycznie ten model podejmowania decyzji zaprezentowano na poniższym rysunku.
Źródło: opracowanie własne
- na osi poziomej odłożony jest czas przy założeniu, że co 1 okres decydent identyfikuje nową decyzję;
- na osi pionowej odłożono wartość pieniężną zwrotu z decyzji i jej kosztu;
- Emax - największa wartość zwrotu z decyzji, jaką można by osiągnąć w danej sytuacji decyzyjnej;
- Faktyczny E na podst. max(Ed*) - faktycznie osiągnięty zwrot z sytuacji decyzyjnej, gdyby decydent podjął decyzję w danej chwili; ta krzywa wyznaczona jest przez zwrot z E dla największego szacowanego zwrotu E*; ten zwrot może maleć, gdy decydent za najatrakcyjniejszy przyjmie wariant z błędnie oszacowanym E*;
- Hipotetyczny E na podst. max(Ed*) - hipotetyczny zwrot z sytuacji decyzyjnej, gdyby decydent podjął decyzję w danej chwili; hipotetyczny, ponieważ decydent nie dobiera najlepszych wariantów na podstawie E tylko E*, który jest obarczony błędem; zatem decydent może oszacować ten hipotetyczny zwrot niekiedy na poziomie wyższym, niż maksymalny możliwy do osiągnięcia zwrot Emax (rysunek 2);
- Ed - zwroty z kolejnych wariantów działania;
- Ed* - szacowane zwroty z kolejnych wariantów działania;
- C - liniowo rosnący koszt podjęcia decyzji.
Przedstawiono to wzorem:
Na poniższym rysunku pokazano zależność prawdopodobieństwa p od szacunku zwrotu decyzji Ed* (w tym wypadku na potrzeby ilustracji przyjęto, że faktyczny zwrot Ed = 60). Jak widać p = 1 dla Ed* <= Ed. Linią ciągłą zaznaczono odcinek szacunków spełniających założenie 2 (Ed*min). Można zauważyć, że na tym odcinku p = 1.
Źródło: opracowanie własne
Dla uproszczenia przyjęto, że decydent w sposób losowy trafia na decyzje. Inaczej mówiąc, rozkład zwrotów z wariantów działania Ed jest losowy. Błąd szacunku Ed* również został przyjęty jako losowy.
Przy okazji warto doprecyzować, że gdy błąd szacunków Ed* rośnie (odległość linii Ed od Ed*), to rośnie też nieoptymalność decyzji (odległość linii ciągłej od ciągłej ze znacznikami). Gdy zaś błąd szacunków zbliża się do zera, to do zera spada nieoptymalność podejmowanych decyzji z tytułu błędów szacowania (linia Ed zaczyna się pokrywać z Ed*, a linia "faktyczny E" z linią "hipotetyczny E"). Prezentuje to poniższy rysunek.
Źródło: opracowanie własne
Reguła stopu
Podsumowując dotychczasowe rozważania, można stwierdzić, iż nieoptymalność podejmowania decyzji określona jest kosztem i czasem poniesionym na znalezienie wariantu działania o dostatecznie wysokim zwrocie Ed. "Dostatecznie wysoki" oznacza, że jest to zwrot, który spełnia przyjętą przez decydenta regułę stopu.
Jak widać na rysunku 1 z czasem przyrosty wartości zwrotu z decyzji są coraz mniejsze. Oznacza to, że analizowanie kolejnych wariantów działania w danej sytuacji decyzyjnej powinno zostać w pewnym momencie przerwane.
Decydent nie wie, w którym miejscu wykresu przedstawionego na rysunku 1 znajduje się. Może więc popełnić błąd i zaprzestać poszukiwania nowych decyzji:
- za wcześnie - gdy uważa, że już nie uzyska satysfakcjonującego zwrotu, mimo że tak nie jest;
- za późno - gdy uważa, że jeszcze można znaleźć dużo lepszą decyzję, mimo że tak nie jest.
Przykładowa reguła stopu może być następująca. Decydent przestanie szukać kolejnych decyzji, gdy spodziewany wzrost wartości decyzji nie będzie większy niż koszt poświęcony na jej znalezienie. Jednakże ta zasada jest realizowana na podstawie szacunków E*, a nie faktycznych zwrotów E. Jak widać, jakość przewidywania, a co za tym idzie funkcjonowania reguły stopu, zależy przede wszystkim od wiarygodności szacunków E*.
Inna reguła stopu może opierać się na spodziewanym do osiągnięcia zwrocie z alternatywnej sytuacji decyzyjnej. Wówczas decydent musi mieć przygotowaną i wstępnie przeanalizowaną taką alternatywną sytuację decyzyjną. "Wstępnie przeanalizowaną" oznacza, w myśl omawianego modelu, że decydent zna przynajmniej szacowany zwrot E1* z wariantu działania dla alternatywnej sytuacji decyzyjnej. Z drugiej strony, jeżeli decydent nie ma dostępnej nowej sytuacji problemowej, może poszukiwać kolejnych wariantów działania dotychczasowej sytuacji decyzyjnej, mimo iż koszt ich znalezienia przekracza wzrost wartości. Wychodzi wówczas z założenia, że lepiej inwestować w eksplorację obecnej sytuacji decyzyjnej, niż nie robić nic.
Z opisywanego tu modelu i założenia 1 wynika, że korzystną strategią postępowania decydenta w kolejnych sytuacjach decyzyjnych jest wybieranie pierwszej napotkanej alternatywy w danej sytuacji decyzyjnej i przechodzenie do kolejnej sytuacji, co przypomina rzucanie kostką. Związane jest to z losowością zwrotów z odkrywanych wariantów działania oraz malejącymi przyrostami zwrotów w czasie (rysunek 1). W celu poprawienia modelu wprowadzono założenie 2 oraz ujęto w nim zjawisko uczenia się decydenta.
Regułą stopu, jaką możemy przyjąć przy wyborze mieszkania, jest pierwsza oferta, która gwarantuje nam pokrycie kredytu hipotecznego z nadwyżką 10%. Możemy też przyjąć, że szukamy mieszkań do momentu, aż spodziewany zysk z tej inwestycji nie wzrośnie o więcej niż 5%. Możemy też przyjąć, że będziemy zajmować się wyborem mieszkania tylko do momentu, gdy nie zacznie to powodować problemów w pracy.
Założenie 2
Przyjmuje się, że decydent dla każdego wariantu działania jest w stanie podać minimalnie możliwy do osiągnięcia zwrot Ed*min, czyli taki zwrot, dla którego p zawsze równe jest co najmniej 1. Można to zapisać wzorem:
Innymi słowy, założenie 2 mówi o tym, że decydent wie, jaką minimalną korzyść z całą pewnością można osiągnąć, wybierając dany wariant działania.
Źródło: opracowanie własne
Po dodaniu założenia 2. korzystniejszą strategią postępowania, od wspomnianego wcześniej "rzucania kostką", może okazać się strategia polegająca na szukaniu kolejnych alternatyw, aż zostanie znaleziona o odpowiednio wysokim Ed*min (taka reguła stopu m.in. zmniejsza niepewność zwrotu z podejmowanych decyzji).
Zgodnie z naszym przykładem kupna mieszkania Ed*min w tym wypadku byłaby minimalnym czynszem z tytułu najmu, który z pewnością można osiągnąć. Dzięki znajomości tego minimalnego czynszu moglibyśmy szybciej zorientować się, których mieszkań nie warto rozważać.
Uczenie się
Omawiany model nie odzwierciedla prawidłowo sytuacji problemowych zachodzących w rzeczywistym świecie, jeżeli nie weźmie się pod uwagę uczenia się decydenta. Warto zauważyć, że jeśli decydent losowo odkrywa warianty działania i nie uczy się, to najkorzystniejszą strategią, zgodnie z omawianą wcześniej regułą stopu, może być podejmowanie decyzji na podstawie pierwszego znalezionego wariantu działania o nieujemnym zwrocie i zabieranie się za kolejną sytuację decyzyjną. Przypomina to trochę rzucanie kostką przez decydenta i jest mało efektywne. W modelu należy więc ująć uczenie się decydenta.
Rezultatem uczenia się może być:
- szybsze znajdowanie wariantów działania o wyższym zwrocie Ed;
- wzrost pewności szacunków Ed*;
- wzrost Ed*min.
Ponadto, w pierwszym przypadku uczenia się, reguła stopu zadziała szybciej, albowiem szybciej zacznie maleć krańcowy wzrost zwrotu Ed. W drugim zaś reguła stopu związana z malejącym krańcowym wzrostem zwrotu, może zadziałać szybciej, bowiem decydent lepiej jest w stanie przewidzieć dynamikę zwrotów, czyli oszacować, jak długo opłaca się inwestować w daną sytuację decyzyjną. W trzecim przypadku reguła stopu również zadziała szybciej, ponieważ wzrost minimalnego do osiągnięcia zwrotu Ed*min przekłada się bezpośrednio na wzrost pewności szacunków Ed*. Decydent nabywa wiedzę, że Ed* jest nie mniejsze, niż pewna wartość Ed*min. Jak widać, efektem uczenia się jest skrócenie czasu podejmowania decyzji, a co za tym idzie i kosztu.
Należy pamiętać, że uczenie się decydenta pojawia się w różnych momentach aktywności, nie tylko przy analizie wariantów działania, i wpływa na różne sytuacje decyzyjne, w tym te, których decydent sam jeszcze nie napotkał. Ucząc się, decydent buduje swój potencjał do rozwiązywania problemów.
Jeżeli podejmowanie decyzji w jednym obszarze merytorycznym uznamy za wykonywanie powtarzalnych czynności, to możemy odnieść się do koncepcji krzywej uczenia się3. Zgodnie z nią przyjmuje się, że człowiek wykonując jakąś czynność, z czasem nabiera w niej wprawy i robi ją coraz lepiej. Jednak akceptacja analogii podejmowania decyzji do krzywej uczenia się wymaga przeprowadzenia dalszych, bardziej szczegółowych badań. Ujmując odwrotnie kwestię uczenia się, można stwierdzić, że decydent, który nie posiada żadnych kompetencji pierwszego typu, tylko przypadkiem może odnaleźć wariant działania o zwrocie równym Emax. Przy braku kompetencji typu drugiego szacunki zwrotu z kolejnych wariantów działania Ed* nie wykazują żadnej korelacji z faktycznym zwrotem z nich Ed. Nawet jeśli zidentyfikuje wariant o zwrocie maksymalnym, nie będzie o tym wiedział, ponieważ najprawdopodobniej błędnie go oszacuje. Brak u decydenta kompetencji typu trzeciego, oznacza, że nie obowiązuje założenie 2, co z kolei powoduje, że nie zna pewności swoich szacunków, więc jest ciągle zaskakiwany faktycznie uzyskanym zwrotem z decyzji.
Schematycznie wspomniane trzy typy kompetencji przedstawia niniejszy rysunek.
Źródło: opracowanie własne
Poniżej zilustrowano sytuację, gdy decydent powiększa swoją kompetencję odnośnie rozbieżności Ed z Emax (górny pasek na rysunku 5).
Źródło: opracowanie własne
Źródło: opracowanie własne
W naszym przykładzie decydent o wyższych kompetencjach typu pierwszego szybciej zidentyfikuje prawdziwe okazje mieszkaniowe, niż ten o niższych.
Na kolejny rysunku zaprezentowano schematycznie, jaki wpływ na podejmowanie decyzji ma wzrost kompetencji drugiego typu, czyli coraz lepsze szacowanie zwrotów z decyzji.
Źródło: opracowanie własne
W naszym przykładzie wzrost kompetencji tego typu może oznaczać, że analizując kolejne oferty mieszkań, uczymy się, jak działa ten rynek i jakie są uwarunkowania w naszym mieście i coraz lepiej potrafimy ocenić wartość podsuwanych nam mieszkań.
Ostatni typ kompetencji związany jest ze wzrostem Ed*min. Schematycznie ilustruje to poniższy rysunek.
Źródło: opracowanie własne
Odnosząc się do naszego przykładu, wzrost kompetencji trzeciego typu przekłada się na lepszą, czyli wzrost minimalnego czynszu, jaki na pewno możemy zarobić na naszym mieszkaniu.
Główne wnioski z modelu informacyjno - decyzyjnego
- Zwrot z decyzji jest marginalnie malejący - oznacza to, że im dłużej analizowana jest sytuacja decyzyjna, tym mniejsza szansa odkrycia wariantu działania o dużo większym zwrocie niż dotychczas znalezione;
- Koszt podjęcia decyzji w pewnym momencie może przekroczyć zwrot z niej - w najprostszym przypadku koszt podjęcia decyzji rośnie liniowo, natomiast zwrot może być zarówno dodatni, jak i ujemny. W połączeniu z poprzednim wnioskiem okazuje się, że konieczne jest zaplanowanie pewnej reguły stopu, która przerwie analizę kolejnych wariantów działania;
- Zgodnie z regułą stopu, przygotowanie alternatywnej sytuacji decyzyjnej, może zwiększyć efektywność decydenta, ponieważ nie będzie zbyt długo skupiał się na analizie nieatrakcyjnych wariantów działania. Reguła stopu nie tylko dotyczy danej sytuacji decyzyjnej, ale i alternatywnych sytuacji, którymi mógłby zająć się decydent;
- Zwrot z decyzji - na skutek błędnych szacunków może spaść, a nawet stać się ujemny - przy dużym błędzie szacowania decydent może nieświadomie wybrać wariant o niskim faktycznym zwrocie;
- W aspekcie pojedynczej decyzji nie ma znaczenia odpowiedzialność za nią. Z jednej strony, po podjęciu decyzji za późno jest na wyciąganie konsekwencji, a z drugiej strony, decyzję, niekoniecznie, ze względu na kompetencje lub ich brak, powinien podejmować przełożony danej jednostki organizacyjnej;
- Rozwijając przedstawiony tu model, warto też powiązać go z kosztami zdobywania i przyswajania informacji. Wówczas uzyskamy pełny obraz funkcjonowania decydenta w organizacji przesyconej wiedzą.
Dalsze kierunki rozwoju modelu informacyjno-decyzyjnego
Faktem jest, że niewiele organizacji może powiedzieć o sobie, że już przynajmniej częściowo, znajdują się w okresie paradygmatu dynamiki. Jednak, jak już wspominano, dalsza presja konkurencyjności wymusi zmiany w sposobach zarządzania, dlatego też, tworząc, omówiony w artykule model, autor starał się spojrzeć w przyszłość.
Omawiany tu model I-D nie jest jeszcze kompletny i warto go dalej rozwijać, na przykład w poniższych kierunkach:
- W omawianym wyżej modelu nie pokazano, w jaki sposób uczenie się decydenta w jednej sytuacji problemowej może wpływać na inne sytuacje, czyli jak decydent funkcjonuje w szeregu sytuacji decyzyjnych;
- Model nie ujmuje powiązań między decyzjami. Decydent po zidentyfikowaniu jakiejś decyzji ma szansę znaleźć kolejną decyzję z podobnego obszaru i podobnym zwrocie jak poprzednia;
- Przyjęto również, że nowa decyzja pojawia się co pewien stały okres. Tymczasem w rzeczywistości decydent może nie podejmować decyzji z taką regularnością;
- Pominięcie w modelu aspektu uczenia się decydenta prowadzi do paradoksów - okazuje się bowiem, że najkorzystniejszą strategią podejmowania decyzji jest "rzucanie kostką", czyli wybór pierwszego odkrytego wariantu działania i podejmowanie analizy kolejnej sytuacji decyzyjnej. Warto też, w toku dalszych badań, przeprowadzić dowód analityczny tego wniosku;
- W omawianym modelu przyjęto, że zwrot z decyzji ma rozkład losowy, normalny o pewnej średniej, stąd ma on też pewne maksimum. W praktyce trudno określić maksymalny zwrot z decyzji;
- Przeanalizowano tylko jedną sytuację decyzyjną, natomiast uczenie się decydenta ma wpływ na wiele sytuacji decyzyjnych, przed którymi staje.
Warto się zastanowić, jak, zgodnie z tym modelem, zachowywać się będzie:
- pojedynczy pracownik w dłuższym czasie,
- pojedynczy łańcuch informacyjno-decyzyjny.
Bibliografia
- F.E. Ritter, L.J. Schooler, The learning curve, International Encyclopedia of the social and behavioral sciences, Amsterdam 2002.
- M. Żmigrodzki, Przepływ informacji i decyzji w przedsiębiorstwie, "e-mentor" 2007, nr 3(20).
Dodaj do: Facebook Wykop Twitter.com Digg.com
Komentarze
Nie ma jeszcze komentarzy do tego artykułu.
Podobne zagadnienia
Potrzeba uczestnictwa uczelni wyższej w kreowaniu umiejętności samokształcenia
Starość. Między diagnozą a działaniem – recenzja
Biblioteka 2.0 w 2014 r. – analiza zjawiska
Czego (nie) uczy szkoła - refleksje uczniów dorosłych
Gotowość prorozwojowa pracowników w sytuacji zmian organizacyjnych - wybrane aspekty
Walidacja kompetencji społecznych w kontekście Krajowych Ram Kwalifikacji dla Szkolnictwa Wyższego
Polska Akcja Humanitarna jako organizacja ucząca się w świetle badań własnych
Przypisy
1 M. Żmigrodzki, Przepływ informacji i decyzji w przedsiębiorstwie, "e-mentor" 2007, nr 3(20).
2 Tamże.
3 F. E. Ritter, L.J. Schooler, The learning curve, International Encyclopedia of the social and behavioral sciences, Amsterdam 2002.