Lightnews — Scholar-powered news

Yoav Arad

@yoavarad.bsky.social

הספקתם כבר לקרוא את אחד המאמרים? פספסנו משהו שלדעתכם היה צריך להיכנס?
תספרו לנו 👇🏻

תצטרפו אלינו בקהילת CV-IL!
chat.whatsapp.com/HT0NjVRYPCFF...

10/10

Computer Vision IL

WhatsApp Group Invite

chat.whatsapp.com

January 12, 2025 at 9:37 AM

Yoav Arad

@yoavarad.bsky.social

CES 2025 🤖
כנס האלקטרוניקה השנתי הגדול לווה בהמון כותרות והכרזות מעניינות, ביניהן:
אנוידיה מציגה את חזון הAI Agents שלה, עם אוסף כלים למפתחים.
blogs.nvidia.com/blog/nemotro...

סמסונג מכריזה על שורה ארוכה של פיצ'רים מבוססי AI במוצרים שלה
news.samsung.com/us/samsung-u...

9/

NVIDIA Announces Nemotron Model Families to Advance Agentic AI

Available as NVIDIA NIM microservices, open Llama Nemotron large language models and Cosmos Nemotron vision language models can supercharge AI agents on any accelerated system.

blogs.nvidia.com

January 12, 2025 at 9:37 AM

Yoav Arad

@yoavarad.bsky.social

תעשייה 🏭

הFDA מחזק את עולם המכשור הרפואי 🏥
הFDA מוציא קווים מנחים למפתחי מכשור רפואי מבוסס AI שמפרט פרקטיקות שיעזרו לקבל אישור עבור הפיתוחים השונים. צעד גדול בסטנדרטיזציה והבשלות של התחום הזה עם פוטנציאל עצום בעתיד.
www.modernhealthcare.com/digital-heal...

8/

FDA drafts guidance for AI developers

Development of healthcare AI continues to pace ahead of the industry's ability to regulate the technology.

www.modernhealthcare.com

January 12, 2025 at 9:37 AM

Yoav Arad

@yoavarad.bsky.social

Cosmos 🌌
research.nvidia.com/labs/dir/cos...
בתוך אוסף ההכרזות בCES 2025, אנוידיה משחררים world foundation model פורץ דרך, עם מאמר ארוך של 75 עמודים. "מודלי עולם" כאלו יאפשרו לאמן מודלים יעודיים עבור בעיות פיזיקליות שונות, משימה קריטית לעולם הרובוטיקה והכלים האוטונומיים.

7/

January 12, 2025 at 9:37 AM

Yoav Arad

@yoavarad.bsky.social

PiLaMIM 🎭
arxiv.org/abs/2501.03005
שתי השיטות המובילות ל masked image modeling הן חיזוי פאצ'ים מוסתרים בתמונה או חיזוי וקטורים מוסתרים במרחב הלטנטי. המאמר מציע שילוב של שתי הגישות האלו בכך שעבור encoder יחיד הוא משתמש בשני סוגי הdecoders, ומצליח לחבר בין היתרונות שתי שיטות.

6/

January 12, 2025 at 9:37 AM

Yoav Arad

@yoavarad.bsky.social

SPAR3D 🗿🖼
spar3d.github.io
במאמר מציגים מודל דו שלבי מתמונה יחידה ל3D, בשלב הראשון משתמשים במודל גנרטיבי ובשלב השני ברגרסיה. השיטה הגנרטיבית טובה יותר בחיזוי אזורים חבויים, הרגרסיה מאפשרת alignment טוב עם התמונה המקורית, השילוב מייצר תוצאה טובה מאשר כל שיטה בנפרד.

5/

January 12, 2025 at 9:37 AM

Yoav Arad

@yoavarad.bsky.social

Decentralized Diffusion Models ⚙
decentralizeddiffusion.github.io
אימון מודלי דיפוזיה על אלפי GPUים מייצר עומס אדיר על רשת התקשורת ביניהם, מה שמייקר את התשתית הנדרשת. במאמר מציגים שיטת ביזור חדשה לאימון שפותרת את העומס בעזרת אימון מודלים "מומחים" בנפרד, עם חיבור שלהם בשלב ה-inference.

4/

January 12, 2025 at 9:37 AM

Yoav Arad

@yoavarad.bsky.social

מאמרים 📰
Through-The-Mask 📽🇮🇱
guyyariv.github.io/TTM/
במאמר מציגים שיטה דו-שלבית ליצירת סרטונים מתמונות, עם דגש על תנועה ריאליסטית של מספר אובייקטים שונים. בשלב הראשון חוזים מסכות תנועה של האובייקטים השונים ובשלב השני משלבים את זה עם התמונה המקורית לסרטון.

3/

January 12, 2025 at 9:37 AM

Yoav Arad

@yoavarad.bsky.social

רוצים לקבל את הסיכום השבועי ישר למייל? תרשמו בלינק:
open.substack.com/pub/yoavarad...

2/

Inbox | Substack

open.substack.com

January 12, 2025 at 9:37 AM

Yoav Arad

@yoavarad.bsky.social

הספקתם כבר לקרוא את אחד המאמרים? פספסנו משהו שלדעתכם היה צריך להיכנס?
תספרו לנו 👇🏻

תצטרפו אלינו בקהילת CV-IL!
chat.whatsapp.com/HT0NjVRYPCFF...

8/8

Computer Vision IL

WhatsApp Group Invite

chat.whatsapp.com

January 4, 2025 at 9:40 PM

Yoav Arad

@yoavarad.bsky.social

תעשייה 🏭

הAI מחליף את המורים 👨🏻‍🏫🤖
www.techradar.com/computing/ar...
באריזונה פתחו בית ספר שמורכב ממורים וירטואליים שילמדו את התוכן המקצועי במקום מורים אנושיים. הלימודים מתקיימים למשך שעתיים ביום בתוכנית לימודים מותאמת לצרכי ולקצב התלמיד ובשאר היום לומדים תכנים רכים עם מנטורים אנושיים.

7/

AI educators are coming to this school – and it's part of a trend

Two hours of lessons, zero teachers

www.techradar.com

January 4, 2025 at 9:40 PM

Yoav Arad

@yoavarad.bsky.social

Multimodal Variational Autoencoder 👂🏻💬
arxiv.org/abs/2412.20487
לטובת יצירת VAE מולטי-מודאלי (אודיו, טקסט ושמע למשל), במקום VAE נפרד לכל מודאליות ושילוב בעזרת MoE המאמר מציע לחבר את ההתפלגויות השונות שנלמדות בעזרת התפלגות בריצנטרית (התפלגות "מרכז מסה" של ההתפלגויות האחרות).

6/

January 4, 2025 at 9:40 PM

Yoav Arad

@yoavarad.bsky.social

Generative Video Propagation 📽
genprop.github.io
המאמר מציג יכולת פרופגציה לשינוי של סרטון. מתחילים בעריכת הפריים הראשון, ובעזרת סגמנטציה שמשמרת את האובייקטים הקיימים בסרטון הרשת מזריקה טוקני תוכן לפייפליין של I2V, שמשלבים בין תוכן הסרטון המקורי והתוכן הערוך.

5/

January 4, 2025 at 9:40 PM

Yoav Arad

@yoavarad.bsky.social

Nested Attention 🪺 🇮🇱
snap-research.github.io/NestedAttent...
עבור משימת פרסונליזציה של מודלי T2I, המאמר משפר משמעותית את היכולת גם להישאר קרובים לפרומפט וגם שומר על זהות הפנים. הם מחליפים את מנגון ה-decoupled attention המוכר במנגנון nested שמחבר את התמונה לטוקנים הרלוונטיים בפרומפט.

4/

January 4, 2025 at 9:40 PM

Yoav Arad

@yoavarad.bsky.social

KV-Mix 🔀 🇮🇱
snap-research.github.io/visual-compo...
במאמר מציגים שיטה לבנות תמונה ממספר אובייקטים ורקע. הם מפרידים את הattention ל-coarse שמשפיע על המיקום של האובייקטים ו-fine שמשפיע על מראה האובייקטים וככה משיגים גם מיקום מתאים וגם מראה שדומה למקור.

3/

January 4, 2025 at 9:40 PM

Yoav Arad

@yoavarad.bsky.social

מאמרים 📰

VEGA 📊
arxiv.org/abs/2412.20682
הרבה בעיות נפתרות מעל ה-embeddings של VLM, ובמאמר הזה עוזרים לנו לבחור את האחד הנכון ובלי צורך בדאטא מתויג. הם מציעים לבנות גרפים של ייצוגי הטקסט והתמונה ולהשוות את המבנים שלהם כדי להבין מי יותר מתאים לבעיה שלנו.

2/

January 4, 2025 at 9:40 PM

Add to Home Screen

Light up
your news

Add to Home Screen

Light upyour news

Sign in to Lightnews

Sign up to start reading

Connect Bluesky

Connect with Bluesky

Light up
your news