research.nvidia.com/labs/dir/cos...
בתוך אוסף ההכרזות בCES 2025, אנוידיה משחררים world foundation model פורץ דרך, עם מאמר ארוך של 75 עמודים. "מודלי עולם" כאלו יאפשרו לאמן מודלים יעודיים עבור בעיות פיזיקליות שונות, משימה קריטית לעולם הרובוטיקה והכלים האוטונומיים.
7/
research.nvidia.com/labs/dir/cos...
בתוך אוסף ההכרזות בCES 2025, אנוידיה משחררים world foundation model פורץ דרך, עם מאמר ארוך של 75 עמודים. "מודלי עולם" כאלו יאפשרו לאמן מודלים יעודיים עבור בעיות פיזיקליות שונות, משימה קריטית לעולם הרובוטיקה והכלים האוטונומיים.
7/
arxiv.org/abs/2501.03005
שתי השיטות המובילות ל masked image modeling הן חיזוי פאצ'ים מוסתרים בתמונה או חיזוי וקטורים מוסתרים במרחב הלטנטי. המאמר מציע שילוב של שתי הגישות האלו בכך שעבור encoder יחיד הוא משתמש בשני סוגי הdecoders, ומצליח לחבר בין היתרונות שתי שיטות.
6/
arxiv.org/abs/2501.03005
שתי השיטות המובילות ל masked image modeling הן חיזוי פאצ'ים מוסתרים בתמונה או חיזוי וקטורים מוסתרים במרחב הלטנטי. המאמר מציע שילוב של שתי הגישות האלו בכך שעבור encoder יחיד הוא משתמש בשני סוגי הdecoders, ומצליח לחבר בין היתרונות שתי שיטות.
6/
spar3d.github.io
במאמר מציגים מודל דו שלבי מתמונה יחידה ל3D, בשלב הראשון משתמשים במודל גנרטיבי ובשלב השני ברגרסיה. השיטה הגנרטיבית טובה יותר בחיזוי אזורים חבויים, הרגרסיה מאפשרת alignment טוב עם התמונה המקורית, השילוב מייצר תוצאה טובה מאשר כל שיטה בנפרד.
5/
spar3d.github.io
במאמר מציגים מודל דו שלבי מתמונה יחידה ל3D, בשלב הראשון משתמשים במודל גנרטיבי ובשלב השני ברגרסיה. השיטה הגנרטיבית טובה יותר בחיזוי אזורים חבויים, הרגרסיה מאפשרת alignment טוב עם התמונה המקורית, השילוב מייצר תוצאה טובה מאשר כל שיטה בנפרד.
5/
decentralizeddiffusion.github.io
אימון מודלי דיפוזיה על אלפי GPUים מייצר עומס אדיר על רשת התקשורת ביניהם, מה שמייקר את התשתית הנדרשת. במאמר מציגים שיטת ביזור חדשה לאימון שפותרת את העומס בעזרת אימון מודלים "מומחים" בנפרד, עם חיבור שלהם בשלב ה-inference.
4/
decentralizeddiffusion.github.io
אימון מודלי דיפוזיה על אלפי GPUים מייצר עומס אדיר על רשת התקשורת ביניהם, מה שמייקר את התשתית הנדרשת. במאמר מציגים שיטת ביזור חדשה לאימון שפותרת את העומס בעזרת אימון מודלים "מומחים" בנפרד, עם חיבור שלהם בשלב ה-inference.
4/
Through-The-Mask 📽🇮🇱
guyyariv.github.io/TTM/
במאמר מציגים שיטה דו-שלבית ליצירת סרטונים מתמונות, עם דגש על תנועה ריאליסטית של מספר אובייקטים שונים. בשלב הראשון חוזים מסכות תנועה של האובייקטים השונים ובשלב השני משלבים את זה עם התמונה המקורית לסרטון.
3/
Through-The-Mask 📽🇮🇱
guyyariv.github.io/TTM/
במאמר מציגים שיטה דו-שלבית ליצירת סרטונים מתמונות, עם דגש על תנועה ריאליסטית של מספר אובייקטים שונים. בשלב הראשון חוזים מסכות תנועה של האובייקטים השונים ובשלב השני משלבים את זה עם התמונה המקורית לסרטון.
3/
סיכום שבועי! 📬
בעבודה משותפת של יאיר מולקנדוב, רוי ליכטשיין ושלי
השבוע: מודלים גנרטיביים, CES 2025 ומכשור רפואי מבוסס AI
מוזמנים לקרוא👇
1/
סיכום שבועי! 📬
בעבודה משותפת של יאיר מולקנדוב, רוי ליכטשיין ושלי
השבוע: מודלים גנרטיביים, CES 2025 ומכשור רפואי מבוסס AI
מוזמנים לקרוא👇
1/
Multimodal Variational Autoencoder 👂🏻💬
arxiv.org/abs/2412.20487
לטובת יצירת VAE מולטי-מודאלי (אודיו, טקסט ושמע למשל), במקום VAE נפרד לכל מודאליות ושילוב בעזרת MoE המאמר מציע לחבר את ההתפלגויות השונות שנלמדות בעזרת התפלגות בריצנטרית (התפלגות "מרכז מסה" של ההתפלגויות האחרות).
6/
Multimodal Variational Autoencoder 👂🏻💬
arxiv.org/abs/2412.20487
לטובת יצירת VAE מולטי-מודאלי (אודיו, טקסט ושמע למשל), במקום VAE נפרד לכל מודאליות ושילוב בעזרת MoE המאמר מציע לחבר את ההתפלגויות השונות שנלמדות בעזרת התפלגות בריצנטרית (התפלגות "מרכז מסה" של ההתפלגויות האחרות).
6/
Generative Video Propagation 📽
genprop.github.io
המאמר מציג יכולת פרופגציה לשינוי של סרטון. מתחילים בעריכת הפריים הראשון, ובעזרת סגמנטציה שמשמרת את האובייקטים הקיימים בסרטון הרשת מזריקה טוקני תוכן לפייפליין של I2V, שמשלבים בין תוכן הסרטון המקורי והתוכן הערוך.
5/
Generative Video Propagation 📽
genprop.github.io
המאמר מציג יכולת פרופגציה לשינוי של סרטון. מתחילים בעריכת הפריים הראשון, ובעזרת סגמנטציה שמשמרת את האובייקטים הקיימים בסרטון הרשת מזריקה טוקני תוכן לפייפליין של I2V, שמשלבים בין תוכן הסרטון המקורי והתוכן הערוך.
5/
Nested Attention 🪺 🇮🇱
snap-research.github.io/NestedAttent...
עבור משימת פרסונליזציה של מודלי T2I, המאמר משפר משמעותית את היכולת גם להישאר קרובים לפרומפט וגם שומר על זהות הפנים. הם מחליפים את מנגון ה-decoupled attention המוכר במנגנון nested שמחבר את התמונה לטוקנים הרלוונטיים בפרומפט.
4/
Nested Attention 🪺 🇮🇱
snap-research.github.io/NestedAttent...
עבור משימת פרסונליזציה של מודלי T2I, המאמר משפר משמעותית את היכולת גם להישאר קרובים לפרומפט וגם שומר על זהות הפנים. הם מחליפים את מנגון ה-decoupled attention המוכר במנגנון nested שמחבר את התמונה לטוקנים הרלוונטיים בפרומפט.
4/
KV-Mix 🔀 🇮🇱
snap-research.github.io/visual-compo...
במאמר מציגים שיטה לבנות תמונה ממספר אובייקטים ורקע. הם מפרידים את הattention ל-coarse שמשפיע על המיקום של האובייקטים ו-fine שמשפיע על מראה האובייקטים וככה משיגים גם מיקום מתאים וגם מראה שדומה למקור.
3/
KV-Mix 🔀 🇮🇱
snap-research.github.io/visual-compo...
במאמר מציגים שיטה לבנות תמונה ממספר אובייקטים ורקע. הם מפרידים את הattention ל-coarse שמשפיע על המיקום של האובייקטים ו-fine שמשפיע על מראה האובייקטים וככה משיגים גם מיקום מתאים וגם מראה שדומה למקור.
3/
VEGA 📊
arxiv.org/abs/2412.20682
הרבה בעיות נפתרות מעל ה-embeddings של VLM, ובמאמר הזה עוזרים לנו לבחור את האחד הנכון ובלי צורך בדאטא מתויג. הם מציעים לבנות גרפים של ייצוגי הטקסט והתמונה ולהשוות את המבנים שלהם כדי להבין מי יותר מתאים לבעיה שלנו.
2/
VEGA 📊
arxiv.org/abs/2412.20682
הרבה בעיות נפתרות מעל ה-embeddings של VLM, ובמאמר הזה עוזרים לנו לבחור את האחד הנכון ובלי צורך בדאטא מתויג. הם מציעים לבנות גרפים של ייצוגי הטקסט והתמונה ולהשוות את המבנים שלהם כדי להבין מי יותר מתאים לבעיה שלנו.
2/
בעבודה משותפת של יאיר מולקנדוב, רוי ליכטשיין ושלי
השבוע: עריכת תמונות, אנקודר מולטי-מודאלי וAI שמחליף מורים!
מוזמנים לקרוא👇
1/
בעבודה משותפת של יאיר מולקנדוב, רוי ליכטשיין ושלי
השבוע: עריכת תמונות, אנקודר מולטי-מודאלי וAI שמחליף מורים!
מוזמנים לקרוא👇
1/