תספרו לנו 👇🏻
תצטרפו אלינו בקהילת CV-IL!
chat.whatsapp.com/HT0NjVRYPCFF...
10/10
תספרו לנו 👇🏻
תצטרפו אלינו בקהילת CV-IL!
chat.whatsapp.com/HT0NjVRYPCFF...
10/10
כנס האלקטרוניקה השנתי הגדול לווה בהמון כותרות והכרזות מעניינות, ביניהן:
אנוידיה מציגה את חזון הAI Agents שלה, עם אוסף כלים למפתחים.
blogs.nvidia.com/blog/nemotro...
סמסונג מכריזה על שורה ארוכה של פיצ'רים מבוססי AI במוצרים שלה
news.samsung.com/us/samsung-u...
9/
כנס האלקטרוניקה השנתי הגדול לווה בהמון כותרות והכרזות מעניינות, ביניהן:
אנוידיה מציגה את חזון הAI Agents שלה, עם אוסף כלים למפתחים.
blogs.nvidia.com/blog/nemotro...
סמסונג מכריזה על שורה ארוכה של פיצ'רים מבוססי AI במוצרים שלה
news.samsung.com/us/samsung-u...
9/
תעשייה 🏭
הFDA מחזק את עולם המכשור הרפואי 🏥
הFDA מוציא קווים מנחים למפתחי מכשור רפואי מבוסס AI שמפרט פרקטיקות שיעזרו לקבל אישור עבור הפיתוחים השונים. צעד גדול בסטנדרטיזציה והבשלות של התחום הזה עם פוטנציאל עצום בעתיד.
www.modernhealthcare.com/digital-heal...
8/
תעשייה 🏭
הFDA מחזק את עולם המכשור הרפואי 🏥
הFDA מוציא קווים מנחים למפתחי מכשור רפואי מבוסס AI שמפרט פרקטיקות שיעזרו לקבל אישור עבור הפיתוחים השונים. צעד גדול בסטנדרטיזציה והבשלות של התחום הזה עם פוטנציאל עצום בעתיד.
www.modernhealthcare.com/digital-heal...
8/
research.nvidia.com/labs/dir/cos...
בתוך אוסף ההכרזות בCES 2025, אנוידיה משחררים world foundation model פורץ דרך, עם מאמר ארוך של 75 עמודים. "מודלי עולם" כאלו יאפשרו לאמן מודלים יעודיים עבור בעיות פיזיקליות שונות, משימה קריטית לעולם הרובוטיקה והכלים האוטונומיים.
7/
research.nvidia.com/labs/dir/cos...
בתוך אוסף ההכרזות בCES 2025, אנוידיה משחררים world foundation model פורץ דרך, עם מאמר ארוך של 75 עמודים. "מודלי עולם" כאלו יאפשרו לאמן מודלים יעודיים עבור בעיות פיזיקליות שונות, משימה קריטית לעולם הרובוטיקה והכלים האוטונומיים.
7/
arxiv.org/abs/2501.03005
שתי השיטות המובילות ל masked image modeling הן חיזוי פאצ'ים מוסתרים בתמונה או חיזוי וקטורים מוסתרים במרחב הלטנטי. המאמר מציע שילוב של שתי הגישות האלו בכך שעבור encoder יחיד הוא משתמש בשני סוגי הdecoders, ומצליח לחבר בין היתרונות שתי שיטות.
6/
arxiv.org/abs/2501.03005
שתי השיטות המובילות ל masked image modeling הן חיזוי פאצ'ים מוסתרים בתמונה או חיזוי וקטורים מוסתרים במרחב הלטנטי. המאמר מציע שילוב של שתי הגישות האלו בכך שעבור encoder יחיד הוא משתמש בשני סוגי הdecoders, ומצליח לחבר בין היתרונות שתי שיטות.
6/
spar3d.github.io
במאמר מציגים מודל דו שלבי מתמונה יחידה ל3D, בשלב הראשון משתמשים במודל גנרטיבי ובשלב השני ברגרסיה. השיטה הגנרטיבית טובה יותר בחיזוי אזורים חבויים, הרגרסיה מאפשרת alignment טוב עם התמונה המקורית, השילוב מייצר תוצאה טובה מאשר כל שיטה בנפרד.
5/
spar3d.github.io
במאמר מציגים מודל דו שלבי מתמונה יחידה ל3D, בשלב הראשון משתמשים במודל גנרטיבי ובשלב השני ברגרסיה. השיטה הגנרטיבית טובה יותר בחיזוי אזורים חבויים, הרגרסיה מאפשרת alignment טוב עם התמונה המקורית, השילוב מייצר תוצאה טובה מאשר כל שיטה בנפרד.
5/
decentralizeddiffusion.github.io
אימון מודלי דיפוזיה על אלפי GPUים מייצר עומס אדיר על רשת התקשורת ביניהם, מה שמייקר את התשתית הנדרשת. במאמר מציגים שיטת ביזור חדשה לאימון שפותרת את העומס בעזרת אימון מודלים "מומחים" בנפרד, עם חיבור שלהם בשלב ה-inference.
4/
decentralizeddiffusion.github.io
אימון מודלי דיפוזיה על אלפי GPUים מייצר עומס אדיר על רשת התקשורת ביניהם, מה שמייקר את התשתית הנדרשת. במאמר מציגים שיטת ביזור חדשה לאימון שפותרת את העומס בעזרת אימון מודלים "מומחים" בנפרד, עם חיבור שלהם בשלב ה-inference.
4/
Through-The-Mask 📽🇮🇱
guyyariv.github.io/TTM/
במאמר מציגים שיטה דו-שלבית ליצירת סרטונים מתמונות, עם דגש על תנועה ריאליסטית של מספר אובייקטים שונים. בשלב הראשון חוזים מסכות תנועה של האובייקטים השונים ובשלב השני משלבים את זה עם התמונה המקורית לסרטון.
3/
Through-The-Mask 📽🇮🇱
guyyariv.github.io/TTM/
במאמר מציגים שיטה דו-שלבית ליצירת סרטונים מתמונות, עם דגש על תנועה ריאליסטית של מספר אובייקטים שונים. בשלב הראשון חוזים מסכות תנועה של האובייקטים השונים ובשלב השני משלבים את זה עם התמונה המקורית לסרטון.
3/
הספקתם כבר לקרוא את אחד המאמרים? פספסנו משהו שלדעתכם היה צריך להיכנס?
תספרו לנו 👇🏻
תצטרפו אלינו בקהילת CV-IL!
chat.whatsapp.com/HT0NjVRYPCFF...
8/8
הספקתם כבר לקרוא את אחד המאמרים? פספסנו משהו שלדעתכם היה צריך להיכנס?
תספרו לנו 👇🏻
תצטרפו אלינו בקהילת CV-IL!
chat.whatsapp.com/HT0NjVRYPCFF...
8/8
הAI מחליף את המורים 👨🏻🏫🤖
www.techradar.com/computing/ar...
באריזונה פתחו בית ספר שמורכב ממורים וירטואליים שילמדו את התוכן המקצועי במקום מורים אנושיים. הלימודים מתקיימים למשך שעתיים ביום בתוכנית לימודים מותאמת לצרכי ולקצב התלמיד ובשאר היום לומדים תכנים רכים עם מנטורים אנושיים.
7/
הAI מחליף את המורים 👨🏻🏫🤖
www.techradar.com/computing/ar...
באריזונה פתחו בית ספר שמורכב ממורים וירטואליים שילמדו את התוכן המקצועי במקום מורים אנושיים. הלימודים מתקיימים למשך שעתיים ביום בתוכנית לימודים מותאמת לצרכי ולקצב התלמיד ובשאר היום לומדים תכנים רכים עם מנטורים אנושיים.
7/
Multimodal Variational Autoencoder 👂🏻💬
arxiv.org/abs/2412.20487
לטובת יצירת VAE מולטי-מודאלי (אודיו, טקסט ושמע למשל), במקום VAE נפרד לכל מודאליות ושילוב בעזרת MoE המאמר מציע לחבר את ההתפלגויות השונות שנלמדות בעזרת התפלגות בריצנטרית (התפלגות "מרכז מסה" של ההתפלגויות האחרות).
6/
Multimodal Variational Autoencoder 👂🏻💬
arxiv.org/abs/2412.20487
לטובת יצירת VAE מולטי-מודאלי (אודיו, טקסט ושמע למשל), במקום VAE נפרד לכל מודאליות ושילוב בעזרת MoE המאמר מציע לחבר את ההתפלגויות השונות שנלמדות בעזרת התפלגות בריצנטרית (התפלגות "מרכז מסה" של ההתפלגויות האחרות).
6/
Generative Video Propagation 📽
genprop.github.io
המאמר מציג יכולת פרופגציה לשינוי של סרטון. מתחילים בעריכת הפריים הראשון, ובעזרת סגמנטציה שמשמרת את האובייקטים הקיימים בסרטון הרשת מזריקה טוקני תוכן לפייפליין של I2V, שמשלבים בין תוכן הסרטון המקורי והתוכן הערוך.
5/
Generative Video Propagation 📽
genprop.github.io
המאמר מציג יכולת פרופגציה לשינוי של סרטון. מתחילים בעריכת הפריים הראשון, ובעזרת סגמנטציה שמשמרת את האובייקטים הקיימים בסרטון הרשת מזריקה טוקני תוכן לפייפליין של I2V, שמשלבים בין תוכן הסרטון המקורי והתוכן הערוך.
5/
Nested Attention 🪺 🇮🇱
snap-research.github.io/NestedAttent...
עבור משימת פרסונליזציה של מודלי T2I, המאמר משפר משמעותית את היכולת גם להישאר קרובים לפרומפט וגם שומר על זהות הפנים. הם מחליפים את מנגון ה-decoupled attention המוכר במנגנון nested שמחבר את התמונה לטוקנים הרלוונטיים בפרומפט.
4/
Nested Attention 🪺 🇮🇱
snap-research.github.io/NestedAttent...
עבור משימת פרסונליזציה של מודלי T2I, המאמר משפר משמעותית את היכולת גם להישאר קרובים לפרומפט וגם שומר על זהות הפנים. הם מחליפים את מנגון ה-decoupled attention המוכר במנגנון nested שמחבר את התמונה לטוקנים הרלוונטיים בפרומפט.
4/
KV-Mix 🔀 🇮🇱
snap-research.github.io/visual-compo...
במאמר מציגים שיטה לבנות תמונה ממספר אובייקטים ורקע. הם מפרידים את הattention ל-coarse שמשפיע על המיקום של האובייקטים ו-fine שמשפיע על מראה האובייקטים וככה משיגים גם מיקום מתאים וגם מראה שדומה למקור.
3/
KV-Mix 🔀 🇮🇱
snap-research.github.io/visual-compo...
במאמר מציגים שיטה לבנות תמונה ממספר אובייקטים ורקע. הם מפרידים את הattention ל-coarse שמשפיע על המיקום של האובייקטים ו-fine שמשפיע על מראה האובייקטים וככה משיגים גם מיקום מתאים וגם מראה שדומה למקור.
3/
VEGA 📊
arxiv.org/abs/2412.20682
הרבה בעיות נפתרות מעל ה-embeddings של VLM, ובמאמר הזה עוזרים לנו לבחור את האחד הנכון ובלי צורך בדאטא מתויג. הם מציעים לבנות גרפים של ייצוגי הטקסט והתמונה ולהשוות את המבנים שלהם כדי להבין מי יותר מתאים לבעיה שלנו.
2/
VEGA 📊
arxiv.org/abs/2412.20682
הרבה בעיות נפתרות מעל ה-embeddings של VLM, ובמאמר הזה עוזרים לנו לבחור את האחד הנכון ובלי צורך בדאטא מתויג. הם מציעים לבנות גרפים של ייצוגי הטקסט והתמונה ולהשוות את המבנים שלהם כדי להבין מי יותר מתאים לבעיה שלנו.
2/