וידאו ובינה מלאכותית

מיכל וינס | 28.08.2023

כלים מבוססי בינה מלאכותית קיימים בתוכנות מקצועיות לעריכת וידאו מזה מספר שנים.
כיום, קיימים מגוון כלי בינה מלאכותית המאפשרים גם למשתמש החובב להשיג במהירות תוצאות איכותיות. במאמר זה אסקור את השימושים והיתרונות בכלי בינה מלאכותית לווידאו ואסביר כיצד המשתמש החובב, או המקצועי יכול לנצל את כוחם ביומיום.

עד לפני שנה בערך, כלים מבוססי בינה מלאכותית (AI) בוידאו גרמו להרמת גבות. כיום הם נוצרים חדשות לבקרים ומציעים מגוון מדהים של אפשרויות. השבוע אמר לי עמית למקצוע וחבר יקר, שיוצרי וידאו מקצועיים (כמוני) עדיין מתייחסים לבינה מלאכותית בוידאו בסוג של ״אנטי״ מסוים, או בביטול. אז בכדי לתקן את הרושם שנוצר אבהיר מראש – אין לי ״אנטי״ לכלים מבוססי בינה מלאכותית בוידאו. בחלקם אני משתמשת, כחלק מתהליך העבודה השוטף שלי, כבר די הרבה זמן, ובאחרים יתכן שאתחיל להשתמש אם אגלה שהם חוסכים לי עבודה. אך בטרם אסקור מה מספקים כלי בינה מלאכותית בוידאו, אבהיר שבכל הנוגע לבינה מלאכותית, תחום הוידאו נמצא קצת מאחור, ואולי מכאן נובע היחס שתואר לעיל. כך או אחרת, העתיד כבר כאן, וגם כלים שעדיין לא עובדים חלק, או לא מספקים תוצאות מושלמות ישופרו, מן הסתם, תוך זמן קצר – אז כדאי להכירם.

יצירה של וידאו מקצועי מורכבת משלושה שלבים עיקריים:

עבודה מקדימה – תיסרוט, תיכנון, לוגיסטיקה, שימוש בכישורים טכנים ושיתוף פעולה בין מבחר אנשים יצירתיים כדי ליצור את חומרי הגלם.
עבודת עריכה – עריכה מדויקת של חומרי הגלם ושילוב טכניקות שונות שעוזרות להעביר את הרעיון באופן מיטבי. למשל: משחקי מהירות, מסך מפוצל, תנועה מלאכותית, שילוב אלמנטים גרפיים שונים, מעברים ואפקטים, עריכת פסקול ועוד.
עבודת פוסט – שילוב אפקטים מיוחדים, תיקוני צבע ואווירה, ושילוב מלל וכתוביות לפני הסגירה הסופית של הווידאו.

אנשי מקצוע בתחום לומדים ומחדדים את יכולותיהם הטכניות והיצירותיות במשך שנים, ומסתמכים על כלים מקצועיים הנותנים מענה לכל הצרכים שהזכרתי. בתוכנות כמו פרימייר פרו ואפטר אפקטס, שולבו מספר כלים מבוססי בינה מלאכותית המשתמשים במנוע ״adobe sensei״ מאחורי הקלעים. למרות זאת, חלק מהתהליכים גוזלים זמן גם מאנשי מקצוע, וכאן ניתן לנצל את כוחם של כלים מסויימים מבוססי בינה מלאכותית. בשוק ישנם מנועים חיצוניים שונים המאפשרים פעולות מסויימות שחלקן מקבילות לשלבי עבודה מקצועית. חלקם מכוונים למשתמש החובב – אך אין בכך לשלול מהמשתמש המקצועי שימוש בהם, במיוחד אם הם מקצרים תהליכים. לכן לגישתי – אם זה עוזר באופן כלשהו וחוסך זמן – למה לא?

שימושים לבינה מלאכותית בווידאו

את כלי הבינה המלאכותית לווידאו ניתן לחלק לשני סוגים עיקריים:

כאלה שעושים מניפולציה כלשהי בכדי לשנות את הווידאו, או לייצר ממנו תוצאה ״מטופלת״.
כאלה שיוצרים וידאו חדש מתיאור מילולי או תמונה בודדת.

רוב המנועים מאפשרים שימוש חינמי המגביל את מספר התוצאות, מספר ההורדות, רזולוציית הצפיה, או אורך הסרטונים שניתן לייצר בעזרתם. רובם מבוססים בגירסתם המלאה על רשיון בתשלום חודשי.

להלן מספר שימושים בבינה מלאכותית בווידאו עם דוגמאות רלוונטיות:

פעולות שונות לפי ניתוח מלל – הכוונה לכלי שמנתח באמצעות בינה מלאכותית את צלילי המלל המדובר מתוך האודיו בווידאו ומתמלל אותו. התוצאה מאפשרת להשתמש בתימלול כדי לבחור מה להשאיר ומה לחתוך החוצה מהסרטון – וכך בעצם לבצע עריכת וידאו באמצעות עריכה של המלל המדובר – כמו בקובץ מלל רגיל.

כלי כזה שמזהה דיבור, קיים בגירסה הנוכחית של פרימייר פרו והוא תומך כבר בזיהוי של כ-16 שפות (אם כי דיבור בעברית עדיין לא מזוהה בצורה מובנית בתוכנה). קיים תוסף בתשלום התומך בזיהוי דיבור בעברית, אך בכל אופן לא רחוק היום שיתווסף זיהוי דיבור בעברית לתוכנה ללא צורך בתוסף חיצוני.

התכונה של זיהוי דיבור מאפשרת עריכה לפי המלל הרצוי (חיתוך חלקי וידאו בעזרת סימון המלל הרצוי או ארגון מחדש של הקטעים), וגם יצירה והדבקה אוטומטית של כתוביות בתיזמון הנכון.

בנוסף, קיימת תוכנת עריכה חיצונית (חינמית!) בשם Capcut, שמאפשרת זיהוי דיבור ותימלול אוטומטי בעברית (זיהוי עברית כרגע עדיין רק בגרסת המובייל). ניתן לנצל אותה לפעולה זו (ופעולות אחרות שאזכיר מייד), או להשתמש בה כדי ליצור תימלול לדיבור, ואז לייצא אותו כקובץ מלל מתוזמן, לייבא אותו אל פרימייר פרו להמשך עבודה וסיום עריכה.

לתוכנה זו קיימות גרסאות עבור מערכת חלונות ואפל, עבור אייפונים ומכשירי אנדרואיד ואפילו גירסת אונליין. היא מאפשרת פעולות נוספות רבות של בינה מלאכותית, כגון – הקראת מלל (במידה ורוצים קריין מלאכותי למלל מצורף), ניתוח התרחשות בוידאו לשם מיסגור מחדש (הרחבה בהמשך המאמר), עקיבה (ניתוח תנועה בוידאו לשם הצמדת אלמנט גרפי לוידאו), חיתוך אוטומטי של רקע מדמות, שיפורי מראה שונים לפנים וגוף, שיתוף גירסאות עריכה אונליין לעבודת צוות וביקורת – ועוד. אציין רק שאלה תכונות של תוכנות קצה מתקדמות ולפיכך למשתמש החובב (ולא רק) זה כלי מעולה ומומלץ ביותר.

כלי נוסף שמזהה דיבור בעברית ומתמלל את המלל נקרא Kapwing. הכלי מאפשר גם שמירה של התמלול כקובץ SRT אותו ניתן להוריד ולייבא אל תוכנות כמו פרימייר פרו. בגירסתו החינמית הוא מוגבל בתימלול של עד 10 דקות לחודש.

עוד כלי שמאפשר הכנסת כתוביות אוטומטית לפי זיהוי דיבור הוא Gling. תוך כדי ניתוח הדיבור הוא מאפשר לאתר ולמחוק אוטומטית שתיקות, ובנוסף, הוא יודע לזהות חזרה על משפטים ועל מילים שונות כדי לסמן ולחתוך החוצה ״טייקים״ פחות מוצלחים. הכלי כולל ייצוא כקובץ מתוזמן שניתן ליבוא אל פרימייר פרו (בפורמט SRT).

גם הכלי הותיק Descript מאפשר (בין השאר) עריכת וידאו לפי מלל. בנוסף, הוא מאפשר הכנסה אוטומטית של כתוביות וניקוי רעשי רקע מדיבור. הוא חינמי כל עוד החומרים שמנתחים בתוכו לא חורגים משעה לחודש, ובשאר השירותים שלו הוא מוגבל למספר נמוך של שימושים ולרזולוצית HD.

בינה מלאכותית בפעולות נוספות לעריכת אודיו

הבינה מלאכותית מאפשרת באמצעות ניתוח האודיו לבצע פעולות נוספות. מרבית הכלים מאפשרים ניקוי רעשי רקע מאודיו, הנמכת אודיו אוטומטית במקביל למוזיקה, וקיצור או הארכת קטעי מוזיקה באופן חכם ובעזרת חיתוכים וחיבורים מדוייקים שלא ניתן לזהות באוזן.

פרימייר פרו מאפשרת את כל הפעולות הללו כחלק מכלי האודיו שלה, אך בנוסף יצרו ב-adobe כלי מקוון בשם adobe Podcast, המיועד לניקוי רעשים מאודיו למי שאין ברשותו רשיון לחבילה הכוללת את כלי הוידאו המקצועיים. הכלי מאפשר ניקוי רעשים אוטומטי מתוך קובצי אודיו שמעלים אליו, עריכת קובץ האודיו בעזרת חיתוך והדבקה של מלל מזוהה והדבקת קטעי מוזיקת רקע ממאגר חופשי. הרישום לכלי זה הוא חינמי.

מאחר ואיתור מוזיקה ללא זכויות יוצרים יכול לאתגר, חשוב לציין כי קיים כלי בשם Soundraw המאפשר יצירת קטעי מוזיקה בעזרת בינה מלאכותית. הגירסה החינמית מאפשרת פחות סגנונות יצירה, אבל מאחר וניתן להוריד את הקטעים ולהשתמש בהם לכל מטרה, כדאי לשקול אותו, ובנוסף מומלץ לשקול גם את השימוש בגירסה בתשלום.

בינה מלאכותית בכלים המבוססים על ניתוח צבע

ניתוח צבע מתבסס בדרך כלל על סריקה של הפיקסלים בתמונה בין פריים לפריים, ניתוח ערכי הצבע והבהירות/ניגודיות שלהם, ואז ביצוע מניפולציות שונות בהתבסס על תוצאות הניתוח.

בפרימייר פרו קיימים מזמן כלי צבע חכמים שמתקנים צבעוניות ובהירות/ניגודיות בהתאמה לקטעים אחרים בלחיצת כפתור. באפטר אפקטס ובפוטושופ קיימים כלים המנתחים צבע, מאפשרים הסתרת אלמנטים מרקע וגם השלמת רקע אוטומטית.

כלי השלמת הרקע של אדובי Content aware fill (הקיים בתוך פוטושופ ואפטר אפקטס), מאפשר ליצור בפוטושופ פריים כבסיס למילוי רקעים אוטומטי בסרטון בתוך אפטר אפקטס. גם כלי העקיבה של אפטר אפקטס עושים שימוש בבינה מלאכותית בכדי ״לשתול״ אלמנטים בקטע וידאו באופן שישתנה בהתאם לוידאו.

לפני מספר חודשים התווספה לפוטושופ (בגרסת הבטא הניתנת להורדה) תכונה של יצירת אלמנטים גרפיים שונים לפי תיאור מילולי, כך שניתן ליצור כל דבר כחלק מהפריים המשמש כדוגמא למילוי.

הנה סרטון המדגים זאת עם פרימייר פרו:

והנה סרטון נוסף המדגים זאת עם אפטר אפקטס:

כלי ניתוח צבע מאפשרים גם ניקוי של רקע מאחורי דמות (כולל רקעים מורכבים מאחורי דמויות שלא צולמו מראש על מסך ירוק / כחול).

הכלי Runway מאפשר זאת, ובנוסף מאפשר עקיבה (תכונה שקיימת באפטר אפקטס), טישטוש פנים, איתור חיתוכים אוטומטי בוידאו שכבר נערך בעבר (תכונות שקיימות גם בפרימייר פרו), השלמת רקעים, יצוא של תוצרים מטופלים ועוד. בנוסף, הכלי מאפשר יצירת וידאו על בסיס תמונה כמקור השראה, שינוי וידאו על פי וידאו, עריכת תמונה על פי תמונה אחרת ועוד. הכלי הזה מבצע בזריזות יחסית ניתוח צבע מתקדם מאוד.

הכלי Auto Reframe בפרימייר פרו מזהה תנועה בוידאו וכך מאפשר ליצור גירסאות למסכים שונים (למשל בפורמט אנכי, או בפורמט ריבועי) מכל וידאו ערוך. הכלי מתאים אוטומטית את הסצינה הערוכה למסגרת החדשה, כך שמרבית התוכן החשוב יישאר בתוכה ולא יחתך בגבולות החדשים. התכונה הזו קיימת כיום גם בכלים כמו CapCut שהוזכר קודם.

כלי יצירה מבוססי שרשרת מילים

ב-Runway שהוזכר לעיל, יצירת וידאו ממלל מתאפשרת ומשתפרת בהדרגה. כרגע היא מוגבלת למספר שניות, אבל התוצאה לא רעה ובהחלט יוצרת ציפיה לשיפורים בעתיד.

אני ממליצה על שילוב של מנועים – ניתן להשתמש ביצירת תמונה (כולל ממנוע אחר) של בינה מלאכותית בכדי ליצור וידאו או תנועה קצרה במנוע שונה – התוצאות מאפשרות גיוון יצירתי גדול יותר.

ליצירת תסריטים ראשוניים או סקיצות לשלבים המקדימים של הוידאו, ניתן לנצל את ChatGPT באנגלית או את מקבילו בעברית – מנוע הצ׳אט שמאחוריו הוא רובוט מאתגר עם בינה מלאכותית שמייצר כמעט כל מלל לפי דרישה (כולל אפילו כתיבת ביטויים לאפטר אפקטס).

מנוע אחר ששייך לאותם יוצרים נקרא e-Dall והוא מאפשר יצירת תמונות לפי תיאור מילולי.

כמובן אזכיר בהקשר זה גם את Firefly של adobe, שגם הוא מאפשר יצירה של תמונה (ואלמנטים גרפיים נוספים) הניתנים לשילוב בוידאו או כאלה שניתן לייצר מהם תנועה במנועים אחרים. למנוע גם יכולות גרפיות נוספות ששווה לחקור.

שווה להזכיר גם את Clipdrop בהקשר זה. בכלי זה ניתן גם לשנות תאורה בהתבסס על ניתוח התאורה בתמונה, ובנוסף הוא מאפשר ליצור תמונה משירבוט מהיר, לנקות רקעים או לנקות פרטים מרקע, להרחיב גבולות של תמונה לתמונה גדולה יותר, וליצור גרסאות שונות לתמונה קיימת.

שימוש במנועים כאלה עבור וידאו מאפשר ליצור תמונות קונספט והשראה לפני ההפקה, וגם עבור יצירה של סטוריבורד, ולא רק כדי ליצור חומרים עבור הוידאו עצמו.

לסיכום, אציין כלי חינמי לחלוטין למשתמשי מק (ובעתיד הקרוב גם למערכת חלונות) – Diffusionbee. הכלי חינמי להורדה ולשימוש, הכלי מוריד מנוע בינה מלאכותית המאפשר פעולות רבות שקיימות במנועים אחרים ללא צורך בחיבור אינטרנטי. הכלי מאפשר להוריד ולהשתמש במנועי בינה מלאכותית נוספים ליצירת תמונות מתיאור מילולי, או על בסיס סגנון של תמונה אחרת, מחיקת נרכיבים מתמונה, הגדלת גבולות תמונה והוספת אלמנטים, הגדלת רזולוציה כולל שיפור איכות, התקנת מודלים נוספים של בינה מלאכותית ואפשרויות מתקדמות נוספות.

DeepFake

המונח Deepfake (בעברית ״זיוף עמוק״) הוא חיבור של Deep learning עם Fake – כלומר חיבור בין מנועי בינה מלאכותית עם למידה עמוקה לשם יצירת זיוף למשהו או מישהו קיים. הכוונה היא למנוע המאפשר לעבד תמונה, או וידאו, או סאונד במידה שאינה מאפשרת לזהות את הזיוף. בטכנולוגיה כזו מתאפשרת למשל הדבקת פנים על וידאו קיים, שימוש בקול של מישהו כדי ״להקריא״ או לומר מלל ספציפי, הפיכת תמונה של אדם לוידאו שלו מדבר, עריכת פרטי פנים וגוף ועוד.

לפיכך, מכל כלי הבינה המלאכותית נחשבים מנועים כאלה למסוכנים יותר כיון שניתן לנצל אותם לרעה. כדי לזהות ״זיוף עמוק״ נוצרו מספר כלים ייעודיים כמו ai.sensity ההולנדי, microsoft video authenticator של מיקרוסופט לזיהוי תכנים שעברו עיבוד על ידי בינה מלאכותית וכלים נוספים.

אך מאחר וישנם גם יישומים חיוביים לכלים כאלה, אזכיר למשל את השימוש בקול לשם יצירת קריינות טבעית למצגת או סרטון. ניתן למצוא כלים כאלה במנועים שהזכרתי קודם כמו Descript.

Reface הוא כלי שמאפשר הדבקת ״דיבוב״ לתמונה, ״עריכת״ פרטי פנים וגוף, שינוי סגנון וידאו באופן קיצוני (למשל שינוי של וידאו לדמויות לגו), ״החלפת״ פרצופים בתמונות ווידאו ועוד. הוא מכוון בעיקר למטרה בידורית ולא למטרות זדוניות והתוצאות בהחלט משעשעות, אך יכולות לשמש גם ככיוון עיצובי לפרוייקט מסוים (למשל יצירת הדגמה רעיונית לאנימציה בעזרת שינוי סגנון של וידאו פשוט בעזרת כלי כזה).

ל Wonderdynamics יש כלי שמייצר דמויות תלת־ממדיות על פי וידאו, ומסוגל ״להחליף״ את הדמות המצולמת בוידאו כולל אנימציה, תאורה וקומפוזיציה מתאימה. גם כלי זה יכול לשרת יוצרים למטרת הדגמת רעיון יצירתי כלשהו.

מחשבות לעתיד

לסיכום, לא ניתן להתעלם מיתרונות שונים שבינה מלאכותית יכולה לאפשר גם בתחום הווידאו:

הגדלת שוק היצירה – גם חובבים יכולים ליצור תוכן בקלות בעזרת כלים אלה, וזה פותח את השוק היצירתי להרבה מקורות נוספים.
חיסכון בזמן – פעולות מסוימות שהיו נחלתם הבלעדית של אנשי מקצוע, ניתנות ליישום כעת בלחיצת כפתור, ולפיכך תהליכי עבודה שתבעו זמן רב בעבר מסתפקים בדקות ושניות ספורות כעת. הדבר תורם לעבודה יעילה יותר בה ניתן להשיג תוצאות מהירות יותר ולא פחות איכותיות.
חיסכון כספי – פחות זמן כדי להגיע לתוצאות שווה פחות כסף.
הרחבת הגבולות היצירתיים – מאחר ולדמיון האנושי אין גבולות – ככל שיש יותר דוגמאות לשימושים בטכנולוגיה הזו – לאנשים יצירתיים יעלו יותר רעיונות איך להשתמש בה.

למרות ההיבטים המאתגרים ששימוש בבינה מלאכותית מביא אל עולם הוידאו, להערכתי כמות היתרונות עולה על החסרונות ובכך בחרתי להתעמק במאמר זה. יתכן מאוד שבעשור הבא נוכל ליצור סרטים איכותיים ושלמים תוך שימוש במחשבים ניידים – וזה כשלעצמו ייעל את תהליכי ההפקה של תוכן מקצועי בוידאו ויפתח את השוק לקולות נוספים ממקומות נוספים. תחרות היא דבר חיובי בעיני, בכל תחום, כך שאני סקרנית לראות מה יביאו השנים הבאות לתחום.

בכל אופן, זה בהחלט הזמן להתנסות בכלים השונים, גם באלה שעדיין בחיתוליהם, כי העתיד כבר כאן ולא יעבור זמן רב עד שהכלים ישתפרו.

🙂

באותו נושא

נכתב ע"י מיכל וינס

רואים רחוק – רואים כפול

במאמרי הקודם סקרתי את השימושים הרבים ב״מסך מפוצל״. בסרט ״The Parent Trap״ מ-1961, היווה השימוש במסך מפוצל פריצת דרך באפקטים...
03.07.2018 | כתב: מיכל וינס
נכתב ע"י ערן בורוכוב

עריכת וידאו – שימוש בנקודת מבט

נקודת מבט בהקשר הקולנועי/טלוויזיוני, או P.O.V בעגה המקצועית (ראשי תיבות של point of view) משרתת תמיד את העלילה, ומשמשת ככלי...
07.11.2016 | כתב: ערן בורוכוב
נכתב ע"י מיכל וינס

עריכת וידאו מסוגננת

בימינו ניתן למצוא יצירות טלוויזיה איכותיות לא פחות (אם לא יותר) מיצירות קולנועיות.
29.01.2014 | כתב: מיכל וינס