מזונות חשובים
- הבעיות הטכניות של פייסבוק היו מצערות, אבל כנראה שהבעיה הייתה נפתרת הרבה יותר מהר אם היא לא הייתה מסתמכת על כל כך הרבה מערכות מחוברות.
- אין דרך למנוע תקלות מערכת לחלוטין, אבל יש דרכים להפחית את הסבירות שלהן.
- החזקת תוכניות גיבוי למתי (לא אם, מתי) מערכת נכשלת יכולה לעשות את ההבדל בין 'מעצבן' ל'קטסטרופלי'.
התקלה האחרונה בפייסבוק מדגימה כיצד מערכות מקושרות עלולות להיכשל ומדוע לא כדאי לנו להשתמש בהן לכל דבר.
איבוד פייסבוק, וואטסאפ ואינסטגרם במשך מספר שעות ביום שני היה לא נוח, הזיק לעסקים, ובמקרים מסוימים, כמעט קטסטרופלי. לפי פייסבוק, הכל נבע משינויי תצורה של נתבי תיאום הרשת שלה.
זה הסבר הגיוני, אבל העובדה ששגיאה בודדת כזו עלולה להפסיק לא רק את פייסבוק אלא גם מערכות אחרות בבעלות פייסבוק היא קצת מדאיגה.
שינוי אחד שגוי בתצורת הנתב גרם למספר שירותים, ואפילו אוזניות VR, להפסיק לפעול לחלוטין. נוסף על כך, על פי הודאתה של פייסבוק עצמה, הייתה לזה גם השפעה מדורגת על האופן שבו מרכזי הנתונים של החברה מתקשרים, והביאו להפסקת כל השירותים שלהם.
"ההסתמכות על מערכות מקושרות טומנת בחובה סיכון מובנה של כשל במערכת או אפילו בשירות", אמר פרנצ'סקו אלטומארה, מהנדס מכירות טכני בכיר ב-GlobalDots, בראיון דוא"ל ל-Lifewire, "כדי להתמודד עם הסיכון המרתיע הזה, חברות משתמשות בעקרון של SRE (מערכת מהימנות הנדסת מערכת), כמו גם בכלים אחרים, שכולם עוסקים ברמות משתנות של יתירות המוכללות בכל שכבה של תשתית המערכת."
What Can Go Wrong
כדאי לציין שכשמערכת כזו נכשלת, זה בדרך כלל דורש סערה מושלמת של דברים משתבשים. זה פחות כמו בית קלפים שמחכה ליפול ויותר כמו יציאת פליטה תרמית חשופה בתחנת חלל בגודל של ירח קטן.
רוב החברות נוקטות צעדים כדי לנסות ולהבטיח שהדבר היחיד שיכול להכניס הכל לכאוס לעולם לא יקרה - אבל בלי קשר, זה יכול לקרות.
"כשלים בלתי צפויים הם חלק מהעסק ועלולים להיווצר כתוצאה מרשלנות עובדים, תקלות ברשת של ספק שירותי אינטרנט, או אפילו שירותי אחסון בענן העוברים בעיות", אמרה סאלי סטיבנס, מייסדת שותפה של FastPeopleSearch, ב- ראיון באימייל.
"…כל עוד הצעדים הנחוצים להגנה על המערכת - כגון גיבויים, נתב באתר וגישה מדורגת - מופעלים, כשלים אלה אינם סבירים למדי." למרות שאפילו עם צבא של כספות תקלות, עדיין ייתכן שהלינצ'פ יכשל.
אם המערכת השולטת בדברים כמו צורות מגע עיקריות, מכשירי חשמל, דלתות וכו', נכשלת, התוצאות יכולות להיות משמעותיות. מאי נוחות קלה ועד קטסטרופלית מלאה, תלוי עד כמה אנשים וחברות מסתמכים על הכל.
"יש גם סיכון של האקרים להיכנס למערכת מכל אחד מהמכשירים הכי פחות מוגנים, כמו מקררים וטוסטרים לתנור", הוסיף סטיבנס, "מה שעלול להוביל לגניבת נתונים ותוכנות כופר."
איך אנחנו יכולים להתכונן
אין דרך להבטיח שמערכת לעולם לא תיכשל, אבל יש צעדים שניתן לנקוט כדי להפחית את הסיכוי לכשל או לטפל בכשל בצורה חלקה יותר.שילוב של שתי הגישות המשלב כספות ואמצעי נגד עם תוכניות מגירה ומערכות גיבוי יהיה אידיאלי.
"כדי לחסל את הסיכונים הללו שנוצרו על ידי מוצרים ושירותים של צד שלישי המטופלים ביעילות, תפקידים וחובות לגבי ניהול סיכונים של צד שלישי חייבים להיות מתוארים בקפדנות", אמרה דניאלה סוייר, מייסדת ומנהלת טכנולוגיה ראשית של FindPeopleFast, בראיון דוא"ל, "כדי לפרוח בסביבה החדשה הזו, מנהלי סיכונים חייבים להבין את החלקים החיוניים של מערכת אקולוגית כה מתוחכמת."
מה שקרה עם פייסבוק, וואטסאפ ואינסטגרם היה מצער, אבל אני מקווה גם מאיר עיניים. אנשים שמסתמכים על מערכות מקושרות זה לזה חייבים להבין שהדבר הנכון שישתבש יכול לשבש הכל. ויש לנקוט אמצעים (או לבחון ולחדד) כדי להפוך שיבושים כאלה לפחות סבירים ופחות משפיעים.
במקרה של פייסבוק, הבעיה שלו לא הייתה בעיות הנתב, אלא העובדה שכמעט כל המערכת האקולוגית שלו מחוברת לכל השאר.לפיכך, כשפייסבוק (השירות) מושבת, פייסבוק (החברה) נאלצה להשקיע הרבה יותר זמן ואנרגיה פשוט בארגון וטיפול בבעיה. אם היא לא הייתה משתמשת במערכת כל כך שורשית ומקושרת או שהיו לה תוכניות גיבוי כדי להתמודד עם הפסקה כזו, סביר להניח שהיה לוקח הרבה פחות זמן לתקן.