פורסם: 3.10.19 צילום: shutterstock
- פתח דבר
חלק מהאלגוריתמים של ML למדתי בתואר הראשון שלי בכלכלה (כגון: הטיה מול שונות, בעיות רגרסיה מול בעיות סיווג, חלוקת נתונים ל- Training set ו- Testing set, נרמול נתונים, רגרסיה לינארית, Ridge, Lasso ו- Elastic Net, יישומי אלגברה לינארית בתוכנת Excel וכו'), חלק בקורסים לתואר שני בכלכלה (כגון: Dimensionality Reduction, Principle Components Analysis, K-Mean Cluster Analysis, Hierarchical Cluster Analysis ו- Time Series וכו'), חלק בתואר השני שלי במימון (כגון: Decision Trees, Random Forest, Monte Carlo Simulation, Bootstrapping, Cubic-Spline, Nelson-Siegel-Svensson וכו'), חלק למדתי בלימודי התעודה באקטואריה (המסווג הנאיבי של בייס, Overfitting, ,Underfitting Convolution and Pooling, תכנות מדעי וסטטיסטי בשפת R וכו'), חלק למדתי בלימודי התעודה בניהול סיכונים פיננסיים ועל חלק אף נבחנתי במבחנים הבינלאומיים להסמכה בתחום ניהול הסיכונים הפיננסיים FRM (כגון: רגרסיה לוגיסטית, Logit, Probit,LDA , K-Nearest Neighbor ו- Support Vector Machines וכו') ואת היתר למדתי עצמאית באינטרנט (כגון: Neural Networks, Ensemble, Bagging, Boosting, תכנות בשפת VBA וכו').
כמובן שההבנה העמוקה שלי באלגוריתמים של ML נשענת הן על הידע שלי בסטטיסטיקה (הכולל בין היתר: סוגי נתונים והצגתם באופן טבלאי וגרפי, מדדי מרכוז ומדדי פיזור, אחוזונים, מדדי קשר, התפלגות הנתונים, הסתברות פשוטה במרחב הסתברותי אחיד ובמרחב הסתברותי לא אחיד, הסתברות מותנית, נוסחת בייס, משתנים מקריים בדידים: ניסויי ברנולי, התפלגות בינומית, התפלגות פואסונית, התפלגות גיאומטרית, התפלגות היפרגיאומטרית, משתנים מקריים רציפים: התפלגות נורמלית, הסקה סטטיסטית, אמידה נקודתית, רווחי סמך, מבחני השערות וסטטיסטיקה א-פרמטרית) והן על הידע שלי בתורת הקבוצות (הכולל בין היתר: מערכות משוואות לינאריות, וקטורים ב- R^n, מטריצות ריבועיות, מטריצות אלמנטריות, מרחבים וקטורים, מרחבי מכפלה פנימית, אורתוגנליות, דטרמיננטות, ערכים עצמיים, וקטורים עצמיים, לכסון, תבניות ריבועיות, משוואות הפרשים, תכונות טופולוגיות של קבוצות במרחב אוקלידי, קבוצות קמורות, משפטי הפרדה, פונקציות קמורות וקעורות, תכונות ואפיונים, שנאת סיכון, אופטימיזציה של פונקציות עם ובלי אילוצים, משפט הפונקציות הסתומות, משפט המעטפת, משוואות דיפרנציאליות מסדרים שונים, מערכות של משוואות דיפרנציאליות ושיטות של אופטימיזציה דינאמית).
מטרתה של סדרת מאמרים זו היא להקנות לקורא הבנה מה עושים מדעני נתונים (Data Scientists) נתונים וכיצד הם יכולים לקדם את מטרות הארגון. מרבית אנשי המימון הכמותי, ניהול הסיכונים הפיננסיים והאקטואריה מכירים בכך שהם זקוקים לידע מסוים בתחום ה- ML על מנת לשרוד בעולם שבו מספר מקומות העבודה מושפע יותר ויותר מתחום זה. כיום, כל אנשי המימון הכמותי, ניהול הסיכונים הפיננסיים והאקטואריה צריכים לדעת לעשות שימוש בתוכנת Excel ולדעת לתכנת ברמה מסוימת ב- VBA. מחר כבר כל אנשי המימון הכמותי, ניהול הסיכונים הפיננסיים והאקטואריה יצטרכו לדעת לעבוד עם מאגרי נתונים גדולים (Big Data) תוך פיתוח ושימוש באלגוריתמים של ML על מנת לזהות כיוונים ומגמות בעולמי התוכן שלהם או במגוון תחומים לרוחב הארגון.
בסדרת מאמרים זו חסכתי מהקורא את השימוש בתורת הקבוצות (קרי, מטריצות ווקטורים), למרות שלעניות דעתי אלגברה לינארית חיונית ביותר על מנת להגיע להבנה עמוקה ולשליטה ברמה גבוהה ב- ML.
לסיכום, סדרת מאמרים זו מציגה את הכלים, המודלים והאלגוריתמים הפופולריים ביותר שבהם משתמשים כיום מדעני נתונים.
- פינטק
הפינטק הוא תחום חדש וצומח המציע שירותים פיננסיים באמצעים טכנולוגיים כמו טלפונים חכמים ואינטרנט. הפינטק מאופיין באמצעות שני דפוסים. הדפוס הראשון נקרא ביטול התיווך (Disintermediation) ופירושו היעלמות של מתווכים מסורתיים. הדפוס השני נקרא תיווך-מחדש (Re-intermediation) ופירושו הופעה של מתווכים מבוססי-טכנולוגיה.
- למידת מכונה (Machine Learning)
למידת מכונה הינה ענף של בינה מלאכותית (Artificial Intelligence) המאפשר למחשבים ללמוד מבלי להיות מתוכנתים במיוחד לשם כך. למידת מכונה עושה שימוש בכלים לחיפוש דפוסים, כאשר חלקם הינם כלים סטטיסטיים מסורתיים כגון: מודלים לינאריים בבעיות רגרסיה (רגרסיה לינארית מסוג Ridge, רגרסיה לינארית מסוג Lasso ורגרסיה לינארית מסוג Elastic Net), מודלים מודלים לינאריים בבעיות סיווג (רגרסיה לוגיסטית ו- LDA) וניתוח מרכיבים עיקריים (Principle Components Analysis) וכו'. חלק מהכלים הינם כלים חשובים שמשקפים את האופן שבו בני אדם מזהים דפוסים כמו למשל רשתות נוירונים (Neural Networks).
קיימים שלושה סוגים של למידת מכונה. הסוג הראשון נקרא למידה עם השגחה (Supervised Learning) והוא עוסק בפיתוח כללים למיפוי משתני כניסה (Inputs) למשתני יציאה (Outputs). הסוג השני נקרא למידה ללא השגחה (Unsupervised Learning) והוא עוסק במציאת דפוסים בתוך נתונים. הסוג השלישי והאחרון נקרא למידה עם חיזוקים (Reinforcement Learning) והוא עוסק בפיתוח כללים לאינטראקציה עם סביבה דינאמית שבה על המכונה לבצע משימות מסוימות. לשם המחשה, להלן מספר דוגמאות ליישומים של למידת מכונה: תרגום משפה אחת לשפה אחרת, זיהוי הונאה, החלטות בדבר מתן הלוואה, נהיגה במכונית וכיוב'.
- בלוקצ'יין (Blockchain)
הבלוקצ'יין הוא מעין ספר חשבונות ראשי (Ledger) שאליו מתווספות רשומות חדשות בבלוקים והרשומות הללו מתעדכנות במחשבים רבים ושונים, כאשר במילים אחרות מדובר במערכת אבטחה למניעת פגיעה (Tampering, שינוי פרמטרים וביצוע מניפולציות במידע העובר על הפרוטוקול עצמו או במבצע הפרוטוקול על מנת לשנות את תגובת המערכת ועל ידי כך להשיג גישה מעבר לגישה שניתנה לתוקף באופן טבעי).
- גיבוב (Hashing)
גיבוב ממיר טקסט למחרוזת של 64 מספרים ואותיות, כאשר לא ניתן להמיר בחזרה את המחרוזת שהתקבלה לטקס המקורי. הגיבוב הינו חלק חשוב במערכות האבטחה של הבלוקצ'יין. הרשומות בבלוקצ'יין הופכות לחסינות מפני פגיעה באמצעות גיבוב שאחד ממשתני הכניסה הוא הגיבוב של הבלוק הקודם.
אם נרצה לבצע גיבוב למשפט "Roi Polanitzer Actuary and Valuator" (ללא הגרשיים) באמצעות אלגוריתם SHA נקבל את המחרוזת הבאה: fcacb5068eef4b8e6b69f4d88c7ef74ed8657aad3c3fb50a8f131c6d6cb10aba
מאידך אם נרצה לבצע גיבוב למשפט "Roi Polanitzer Actuary and Valuator 10" (ללא הגרשיים)באמצעות אלגוריתם SHA נקבל את המחרוזת הבאה: a7ab006dfcce6f4b176404003eda80ad93b661b667c98c0626bf775c0643328f
- מערכות תשלומים
אמנם כיום ישנן כבר המצאות רבות, כגון: כרטיסי אשראי, כרטיסי חיוב (Debit Cards), ארנקים ניידים (Mobile Wallets), אך השימוש העתידי יהיה באמצעות אישור ביומטרי, ואיתו יעלו ויצופו בעיות של איסוף נתונים וסוגיות של פרטיות. השימוש ההולך וגובר במטבעות דיגיטליים מעלה את השאלה, האם בנקים מרכזיים יעשו שימוש במטבעות דיגיטליים?
להלן גרף המראה את שווי מטבע הביטקוין (Bitcoin) בדולר ארה"ב:

- חידושים והמצאות הקשורים בהלוואות
הלוואות P2P (מה שמכונה הלוואות המונים או הלוואות חברתיות) הן דוגמא לביטול התיווך המלווה בתיווך-מחדש.
להלן נתונים סטטיסטיים של חברת Lending Club (חברה אמריקאית ציבורית הנסחרת ב- NYSE) שפורסמו ביוני 2017:

נסביר שבארה"ב המלווים בהלוואות P2P אינם מעמידים הלוואות ללווים באופן ישיר אלא רוכשים שטרות המגלמים את ההלוואה והזכות לפירעון. כאשר המלווה בוחר איזו הלוואה לממן, נכנס הווב-בנק לתמונה. זהו בנק הממוקם ביוטה ותפקידו לייצר את ההלוואה בדרך של הנפקת שטר. הווב-בנק מוכר את ההלוואה לחברה המנהלת את הפלטפורמה, שמוכרת את השטר למלווים. לבסוף המלווים רוכשים את השטר המגלם את הזכות לפירעון.
חשוב להסביר שהווב-בנק והחברה אינם נושאים בסיכון לחדלות פירעון ההלוואה, ועל כן סיכון זה נותר על כתפי המלווים בלבד. היות ומדובר בהנפקת שטרות, התערב ה- SEC (רשות ניירות הערך האמריקאית) וקבע כי הוא רואה בשטרות המונפקים ניירות ערך לכל דבר ועניין ובחברות המנפיקות ובלווים משקיעים. לפיכך, ה- SEC דרש מחברת Lending Club (כמו גם מיתר חברות ההלוואות להמונים) להירשם למסחר בבורסה ולהחיל עליה את הוראות חוק ניירות ערך האמריקאי.
- גיוס המונים (Crowdfunding)
מדובר בגיוס מימון לפרויקטים ברשת, כאשר הגיוס יכול להיות מבוסס תרומות, לחילופין מבוסס-חוב או לחילופי חילופין מבוסס-מניות.
הנפקות מטבע ראשוניות (ICOs) הינן חלופה להנפקות מניות לציבור (IPOs) ובמסגרתן החברה מנפיקה מטבע דיגיטלי חדש, בדרך כלל בתמורה למטבע דיגיטלי כמו ביטקוין.
- ניהול השקעות (Wealth Management)
כתוצאה מכל מה שתואר עולה השאלה האם תחום ניהול ההשקעות נפגע מחידושי הפינטק? התשובה היא חיובית, תחום ניהול ההשקעות נפגע כתוצאה ממערכות ייעוץ רובוטיות מקווננות (on-line robo-advisors), המספקות שירות זול יותר. לרוב, מערכות ייעוץ אלו מציעות למשקיעים תמהיל השקעה המתפלג בין מדד מניות מסוים לבין מדד אג"ח מסוים. עם זאת בעתיד, אנו צפויים לראות אסטרטגיות השקעה יותר מתוחכמות.
- ביטוח
האם ענף הביטוח יפגע מחידושי הפינטק? אז כאן התשובה היא כן ולא. לגבי חברות הביטוח, לא סביר שהן יפגעו מחידושי הפינטק הואיל והמבוטחים על פי רוב דורשים חברה יציבה שהונה העצמי ומערכי הבקרה הפנימית ובקרת האיכות בה איתנים. לא הוא הדין לגבי סוכני הביטוח. במאמר מוסגר נאמר שזמינות רבה יותר של נתונים (Big Data) פירושה שניתן להעריך סיכונים בצורה יותר מדויקת.
- רגולציה
אין ספק שהרגולציה היא מחסום כניסה עבור הפינטק. מאידך, הרגולטורים בעולם לא רוצים לחנוק את החדשנות ועל כן הם הציעו מספר תוכניות המספקות הקלות רגולטוריות לחידושים. אבל עדיין הסדרת הפינטק הוא הוא אתגר, כך למשל, האלגו-טריידינג מסוג HFT יצר בעיות אצל הרגולטורים. למי שלא מכיר את התחום נסביר שאלגו-טריידינג (Algo Trading) באופן כללי פירושו הזרמה אוטומטית למסחר של הוראות קטנות, שמהוות חלק מהוראה גדולה יותר, על מנת להשיג מחיר אופטימלי בתוך פרק זמן נתון (לדוגמה, מחיר שאינו פחות טוב מממוצע המחירים של כלל העסקאות שבוצעו באותו פרק זמן) בעוד ש- HFT (או מסחר בתדירות גבוהה) הינו מקרה פרטי של אלגו-טריידינג ופירושו הזרמה אוטומטית למסחר של הוראות קטנות, תוך שימוש בטכנולוגיות מתקדמות לביצוע אסטרטגיות מסחר מסורתיות (לדוגמה, עשיית שוק בנכסים פיננסיים, מסחר בנגזרים תוך שמירה על רמת סיכון נתונה, ניצול מרווחי ארביטראז' וכו).
ברור שלא ניתן להחיל על תוכנת מחשב מתוחכמת ומתקדמת ככל שתהיה רגולציה הדומה לזו החלה על מערכות בבנק גדול. לפיכך, מתווכים וסוכנים (לרבות סוכני ביטוח) סופם שיעלמו מהעולם (מי טס לאחרונה לחו"ל דרך סוכן נסיעות?).
לאחרונה נתקלתי במונח RegTech שמטרתו לתאר את השימוש בטכנולוגיה לשיפור הציות או העמידה בהוראות רגולטוריות. קיימות שלוש דוגמאות נפוצות ל- RegTech. הדוגמא הראשונה ל- RegTech היא סריקת לקוחות ועסקאות בזמן אמת לצורך זיהוי הלבנת הון, מימון טרור ושבירת סנקציות. הדוגמא השניה הינה מעקב או ניטור תקשורת בין עובדים באמצעות למידת מכונה לצורך זיהוי בעיות (הטרדות מיניות, הונאות, מעילות וכו'). הדוגמא השלישית היא שימוש בספריה של הוראות רגולטוריות עולמיות.
- בנקים
וכמובן שאי אפשר לכתוב מאמר על פינטק מבלי להתייחס לענף הבנקאות. אז נשאלת השאלה, כיצד על הבנקים להגיב לחידושי הפינטק? נאמר מראש שמרבית מקורות ההכנסה המסורתיים של הבנקים יעלמו כתוצאה מחידושי הפינטק. למשל מסקר שנערך בארה"ב על ידי גוף שמכונה מדד ההפרעות של דור ה- Y (Millennial Disruption Index) עולה כי- 71% מבני דור ה- Y (אלה שנולדו במהלך שנות ה-80 ושנות ה-90 של המאה העשרים) מעדיפים לבקר אצל רופא השיניים שלהם מאשר להקשיב לבנק שלהם. מה שאומר שלבנקים יהיה צורך מתמיד להסתגל לסביבת השירותים הפיננסיים המשתנה במהירות ולמצוא שירותים בעלי ערך מוסף, אחרת סופם להיעלם בהיותם מתווכים.
וזה מביא אותי לסיפור של קודאק ו- IBM. זה סיפורן של שתי חברות טכנולוגיה בנות מאה שנה כל אחת העוסק באמת בפריחה לעומת הישרדות. IBM וקודאק קיימות שתיהן מזה למעלה ממאה שנה. למעשה, בשנת 2011 חגגה IBM את השנה המאה שלה. קודאק קיימת זמן רב יותר, מאז שנות ה- 80 של המאה ה- 19, כאשר ג'ורג' איסטמן פיתח סרטי צילום ואת המצלמה הראשונה.
קודאק ו- IBM הן חלק מההיסטוריה שלי. בילדותי אמי אהבה את מצלמת הקודאק שלה. בהמשך קיבלתי מצלמת קודאק חד-פעמית וחשבתי שזה מגניב. IBM הייתה שם גם, עם המכונות המפורסמות לעיבוד כרטיסי ניקוב שהזינו נתונים למחשבים מרכזיים, מכונות כתיבה ומחשבי IBM. היום ניתן לראות קצת מההיסטוריה הזו בעת צפייה בסדרה הגברים של שדרות מדיסון (Mad Men) שבה אחד השחקנים מקליד על מכונת כתיבה של IBM או משתמש במקרן שקופיות של קודאק.
אם נקפוץ קדימה לשנת 2019 זהו כבר סיפור שונה לגמרי עבור שתי הפירמות הללו. כיום, IBM משגשגת, שווי השוק שלה נאמד בכ- 127 מיליארד דולר ארה"ב, אך זה גם מפני שבמשך השנים, IBM קיבלה מספר החלטות קשות ביותר שלעתים קרובות היא גם "חטפה" עליהן. IBM יצאה מעסקי מכונות הכתיבה ומחשבים אישיים ככל שאלו הלכו והפכו לקומודיטיס (היא גם יצאה מעסקי המדפסות).
קודאק לעומת זאת ממש לא באותו המקום שבו מצויה IBM, אך היא עדיין בסביבה (כאשר מרבית הפירמות שהוקמו במאה ה- 19 כבר נעלמו מזמן). בעשור האחרון קודאק נאבקה על מנת לשרוד, בין היתר בשל המעבר מצילום אנלוגי לצילום דיגיטלי. אנשים לא קונים סרטי צילום ובטח שלא מפתחים תמונות כמו פעם. קודאק אמנם מייצרת את אחת ממדפסות הזרקת הדיו הטובות ביותר שבהן השתמשתי ואחת ממכונות הסריקה הטובות ביותר by far, אבל עדיין מדובר בשוק צפוף.
IBM עברה גם היא זמנים קשים, והייתה תקופה שהיא נדרשה הייתה לבצע צמצום רציני. IBM צלחה את הסערה ההיא והיום היא חזרה לפסגה, כאחד המותגים הטכנולוגייים החזקים בעולם.
הלקח מהסיפור הזה הוא שההישרדות העסקית היא קשה. בעולם הדיגיטלי שבו אנו חיים כיום בשנת 2019, זה אפילו קשה יותר מכיוון שמתחרים חדשים יכולים לצוץ באחת משום מקום ולהתחרות בך.
אז מה קרה לקודאק? עם כניסת הצילום הדיגיטלי, קודאק נכנסה לתחום הוידאו והציגה את עצמה כחברה שאינה קופאת על שמריה, אולם קודאק לא נכנסה טוב למאה ה-21, והחל משנת 2007 ראתה רק הפסדים ומנייתה צללה ב-90%. בינואר 2012 קודאק הגישה בקשה לפשיטת רגל. בעקבות פשיטת הרגל קודאק יצאה מעסקי צילום דיגיטלי, הפסיקה לייצר מדפסות דיו שולחניות, מכרה מספר חטיבות, פיטרה אלפי עובדים ומכרה חבילת פטנטים שלה בלמעלה מחצי מיליארד דולר ארה"ב. חודש אוקטובר בשנת 2016 הכריזה חברת קודאק על מכשיר הסמרטפון הראשון שלה, Kodak Ektra, המשלב בתוכו מצלמה מתקדמת. לא יהיה זה מופרך לומר שקודאק חזרה מהמתים, כאשר שווי השוק שלה כיום נאמד ב- 114 מיליון דולר ארה"ב והזרוע עוד נטויה.

רועי הינו מדען נתונים (Data Scientist) העושה שימוש ב- Machine Learning לצורך פיתוח מודלים מתקדמים לניהול סיכונים (בדגש על אשראי קמעונאי) כגון מודלים מנבאי התנהגות לקוחות ו/או מודלי תחזיות בתחום ניהול הסיכונים, שיפור מודלים בתחום ניהול הסיכונים, ניתוח צרכים עסקיים בעולמות ניהול הסיכונים, אפיון פתרונות מתאימים באמצעות עבודה מול בסיס נתונים גדולים ויישום כלים אנליטיים מתקדמים בעולם הבינה המלאכותית, הערכת סיכוני מודל וניטור פעולות מתקנות, ניתוח ועיבוד גורמי סיכון עיקריים, וניתוח הבדלים בין חלופות ואיפיון גורמי סיכון.
ניסיונו של רועי בתחום ה- Data Analysis, כולל: עבודה עם מאגרי מידע גדולים Big Data תוך שימוש ב- Statistical Learning (כגון: סטטיסטיקה תיאורית, הסתברות, הסקה סטטיסטית, סטטיסטיקה א-פרמטרית, חלוקת נתונים, נרמול נתונים, Fitting ו- Bayes Theorem) ובאלגוריתמים מסוג Unsupervised Learning (כגון: k-means Clustering, Hierarchical Clustering, Density-based Clustering, Distribution-based Clustering ו- Principle Components Analysis) למציאת דפוסים וזיהוי מגמות ואנומליות בעולמות ניהול הסיכונים, ההשקעות, האקטואריה, הביטוח והפנסיה, פיתוח תשתית לצורך ניתוח נתונים, שילוב והטמעת כלים לצורך גישה ושליפה עצמאית של נתונים ממאגרי מידע, פיתוח דוחות, ממשקים ומסכים באמצעות כלי ויזואליזציה.
ניסיונו של רועי בתחום ה- Data Science, כולל: עבודה עם מסדי נתונים גדולים Big Data תוך שימוש באלגוריתמים מסוג Supervised Learning (כגון: Linear Regression, Ridge Regression, Lasso Regression, Elastic Net Regression, Logistic Regression, Maximum Likelihood Estimation, k-Nearest Neighbors, Decision Tree, Random Forest, Ensemble, Bagging, Boosting, Naïve Bayes Classifier, Linear Separation, Support Vector Machine, Non-Linear Separation, SVM Regression, Artificial Neural Network, Convolutional Neural Network ו- Recurrent Neural Network) לניבוי וסיווג בעולמות ניהול הסיכונים, ההשקעות, האקטואריה, הביטוח והפנסיה ובמודלים מסוג Reinforcement Learning (כגון: Q-learning, Monte Carlo Simulation, Temporal Difference Learning ו- n-Step Bootstrapping) לקבלת החלטות מרובות שלבים בעולמות ניהול הסיכונים, ההשקעות, האקטואריה, הביטוח והפנסיה, זיהוי אתגרים עסקיים שבהםDATA יכול להוות גורם מכריע בשיפור קבלת החלטות, איתור ואיסוף מקורות מידע, הגדרה ואיפיון של שימושי המידע, בניית מסד המידע, אפיון והגדרת הצגת המידע ותוצריו, פיתוח כלים, מודלים, תהליכים ומערכות בתחום האנליזה, תוך שימוש בכלי אנליזה מתקדמים (EXCEL, VBA ושפת R).
מגזין "סטטוס" מופק ע"י:

The post פינטק (FinTech) / מאמר מס' 1 בסדרה appeared first on סטטוס.