Yoav Arad
yoavarad.bsky.social
Yoav Arad
@yoavarad.bsky.social
Computer Vision Researcher
הספקתם כבר לקרוא את אחד המאמרים? פספסנו משהו שלדעתכם היה צריך להיכנס?
תספרו לנו 👇🏻

תצטרפו אלינו בקהילת CV-IL!
chat.whatsapp.com/HT0NjVRYPCFF...

10/10
Computer Vision IL
WhatsApp Group Invite
chat.whatsapp.com
January 12, 2025 at 9:37 AM
CES 2025 🤖
כנס האלקטרוניקה השנתי הגדול לווה בהמון כותרות והכרזות מעניינות, ביניהן:
אנוידיה מציגה את חזון הAI Agents שלה, עם אוסף כלים למפתחים.
blogs.nvidia.com/blog/nemotro...

סמסונג מכריזה על שורה ארוכה של פיצ'רים מבוססי AI במוצרים שלה
news.samsung.com/us/samsung-u...

9/
NVIDIA Announces Nemotron Model Families to Advance Agentic AI
Available as NVIDIA NIM microservices, open Llama Nemotron large language models and Cosmos Nemotron vision language models can supercharge AI agents on any accelerated system.
blogs.nvidia.com
January 12, 2025 at 9:37 AM

תעשייה 🏭

הFDA מחזק את עולם המכשור הרפואי 🏥
הFDA מוציא קווים מנחים למפתחי מכשור רפואי מבוסס AI שמפרט פרקטיקות שיעזרו לקבל אישור עבור הפיתוחים השונים. צעד גדול בסטנדרטיזציה והבשלות של התחום הזה עם פוטנציאל עצום בעתיד.
www.modernhealthcare.com/digital-heal...

8/
FDA drafts guidance for AI developers
Development of healthcare AI continues to pace ahead of the industry's ability to regulate the technology.
www.modernhealthcare.com
January 12, 2025 at 9:37 AM
Cosmos 🌌
research.nvidia.com/labs/dir/cos...
בתוך אוסף ההכרזות בCES 2025, אנוידיה משחררים world foundation model פורץ דרך, עם מאמר ארוך של 75 עמודים. "מודלי עולם" כאלו יאפשרו לאמן מודלים יעודיים עבור בעיות פיזיקליות שונות, משימה קריטית לעולם הרובוטיקה והכלים האוטונומיים.

7/
January 12, 2025 at 9:37 AM
PiLaMIM 🎭
arxiv.org/abs/2501.03005
שתי השיטות המובילות ל masked image modeling הן חיזוי פאצ'ים מוסתרים בתמונה או חיזוי וקטורים מוסתרים במרחב הלטנטי. המאמר מציע שילוב של שתי הגישות האלו בכך שעבור encoder יחיד הוא משתמש בשני סוגי הdecoders, ומצליח לחבר בין היתרונות שתי שיטות.

6/
January 12, 2025 at 9:37 AM
SPAR3D 🗿🖼
spar3d.github.io
במאמר מציגים מודל דו שלבי מתמונה יחידה ל3D, בשלב הראשון משתמשים במודל גנרטיבי ובשלב השני ברגרסיה. השיטה הגנרטיבית טובה יותר בחיזוי אזורים חבויים, הרגרסיה מאפשרת alignment טוב עם התמונה המקורית, השילוב מייצר תוצאה טובה מאשר כל שיטה בנפרד.

5/
January 12, 2025 at 9:37 AM
Decentralized Diffusion Models ⚙
decentralizeddiffusion.github.io
אימון מודלי דיפוזיה על אלפי GPUים מייצר עומס אדיר על רשת התקשורת ביניהם, מה שמייקר את התשתית הנדרשת. במאמר מציגים שיטת ביזור חדשה לאימון שפותרת את העומס בעזרת אימון מודלים "מומחים" בנפרד, עם חיבור שלהם בשלב ה-inference.

4/
January 12, 2025 at 9:37 AM
מאמרים 📰
Through-The-Mask 📽🇮🇱
guyyariv.github.io/TTM/
במאמר מציגים שיטה דו-שלבית ליצירת סרטונים מתמונות, עם דגש על תנועה ריאליסטית של מספר אובייקטים שונים. בשלב הראשון חוזים מסכות תנועה של האובייקטים השונים ובשלב השני משלבים את זה עם התמונה המקורית לסרטון.

3/
January 12, 2025 at 9:37 AM
רוצים לקבל את הסיכום השבועי ישר למייל? תרשמו בלינק:
open.substack.com/pub/yoavarad...

2/
Inbox | Substack
open.substack.com
January 12, 2025 at 9:37 AM

הספקתם כבר לקרוא את אחד המאמרים? פספסנו משהו שלדעתכם היה צריך להיכנס?
תספרו לנו 👇🏻

תצטרפו אלינו בקהילת CV-IL!
chat.whatsapp.com/HT0NjVRYPCFF...

8/8
Computer Vision IL
WhatsApp Group Invite
chat.whatsapp.com
January 4, 2025 at 9:40 PM
תעשייה 🏭

הAI מחליף את המורים 👨🏻‍🏫🤖
www.techradar.com/computing/ar...
באריזונה פתחו בית ספר שמורכב ממורים וירטואליים שילמדו את התוכן המקצועי במקום מורים אנושיים. הלימודים מתקיימים למשך שעתיים ביום בתוכנית לימודים מותאמת לצרכי ולקצב התלמיד ובשאר היום לומדים תכנים רכים עם מנטורים אנושיים.

7/
AI educators are coming to this school – and it's part of a trend
Two hours of lessons, zero teachers
www.techradar.com
January 4, 2025 at 9:40 PM

Multimodal Variational Autoencoder 👂🏻💬
arxiv.org/abs/2412.20487
לטובת יצירת VAE מולטי-מודאלי (אודיו, טקסט ושמע למשל), במקום VAE נפרד לכל מודאליות ושילוב בעזרת MoE המאמר מציע לחבר את ההתפלגויות השונות שנלמדות בעזרת התפלגות בריצנטרית (התפלגות "מרכז מסה" של ההתפלגויות האחרות).

6/
January 4, 2025 at 9:40 PM

Generative Video Propagation 📽
genprop.github.io
המאמר מציג יכולת פרופגציה לשינוי של סרטון. מתחילים בעריכת הפריים הראשון, ובעזרת סגמנטציה שמשמרת את האובייקטים הקיימים בסרטון הרשת מזריקה טוקני תוכן לפייפליין של I2V, שמשלבים בין תוכן הסרטון המקורי והתוכן הערוך.

5/
January 4, 2025 at 9:40 PM

Nested Attention 🪺 🇮🇱
snap-research.github.io/NestedAttent...
עבור משימת פרסונליזציה של מודלי T2I, המאמר משפר משמעותית את היכולת גם להישאר קרובים לפרומפט וגם שומר על זהות הפנים. הם מחליפים את מנגון ה-decoupled attention המוכר במנגנון nested שמחבר את התמונה לטוקנים הרלוונטיים בפרומפט.

4/
January 4, 2025 at 9:40 PM

KV-Mix 🔀 🇮🇱
snap-research.github.io/visual-compo...
במאמר מציגים שיטה לבנות תמונה ממספר אובייקטים ורקע. הם מפרידים את הattention ל-coarse שמשפיע על המיקום של האובייקטים ו-fine שמשפיע על מראה האובייקטים וככה משיגים גם מיקום מתאים וגם מראה שדומה למקור.

3/
January 4, 2025 at 9:40 PM
מאמרים 📰

VEGA 📊
arxiv.org/abs/2412.20682
הרבה בעיות נפתרות מעל ה-embeddings של VLM, ובמאמר הזה עוזרים לנו לבחור את האחד הנכון ובלי צורך בדאטא מתויג. הם מציעים לבנות גרפים של ייצוגי הטקסט והתמונה ולהשוות את המבנים שלהם כדי להבין מי יותר מתאים לבעיה שלנו.

2/
January 4, 2025 at 9:40 PM