Описувач ввмісту за допомогою ШІ для NVDA

Цей додаток дозволяє отримати докладні описи для зображень та іншого візуально недоступного вмісту.

Використовуючи мультимодальні можливості великої мовної моделі GPT-4, ми прагнемо забезпечити найкращі у своєму класі описи вмісту. Для отримання додаткової інформації про базову модель зверніться до GPT-4V.

Особливості

Варіант використання

За цим проектом стояло кілька основних мотивів.

NVDA початково здатна виконувати оптичне розпізнавання символів (OCR), що змінює правила гри. Якщо ви намагаєтеся витягти текст із зображення або PDF-документа, це те, що вам потрібно.

Однак OCR здатний аналізувати лише ті дані, які «можуть» бути текстом. Він не здатен врахувати контекст, об'єкти та взаємозв'язки, передані в цих зображеннях. А в інтернеті їх повно. Логотипи, портрети, меми, іконки, графіки, діаграми, гістограми... Все, що завгодно. Вони всюди, і, як правило, не в тому форматі, який користувачі екранних читачів можуть інтерпретувати. Донедавна існувала непохитна довіра до авторів вмісту, які надавали альтернативні текстові описи. Хоча це все ще є обов'язковим, важко змінити той факт, що високий стандарт якості є скоріше винятком, ніж правилом.

Тепер можливості майже безмежні. Ви можете:

Початок роботи

Завантажте останню версію додатка за цим посиланням. Клацніть файл на комп’ютері з інстальованою NVDA, а потім виконайте наведені нижче інструкції, щоб отримати ключ API від OpenAI:

  1. Перейдіть на сторінку https://platform.openai.com/account/api-keys
  2. Якщо у вас ще немає облікового запису, створіть його. Якщо маєте, увійдіть.
  3. На сторінці ключів API натисніть (Створити новий секретний ключ). Скопіюйте його в буфер обміну.
  4. Поповніть рахунок принаймні на 1 дол
  5. У діалозі налаштувань NVDA прокрутіть вниз до категорії «Описувач вмісту за допомогою ШІ», потім перейдіть до поля Ключ API і вставте туди щойно згенерований ключ.

На момент написання цієї статті OpenAI видає кредити на нові акаунти розробників, які можна використовувати протягом трьох місяців, після чого вони втрачаються.

Після цього періоду вам потрібно буде придбати кредити. Звичайне використання не повинно перевищувати $5.00 на місяць. Для порівняння, оригінальна версія цього додатка була розроблена за трохи менше долара. Ви завжди можете увійти до свого облікового запису OpenAI і натиснути на "використання", щоб дізнатись свій ліміт.

Використання

Початково призначено три гарячі клавіші:

Два жести не призначені:

Ви можете налаштувати їх у будь-який час за допомогою діалогу «Жести вводу».

Внески

Усі вони високо оцінені та будуть зараховані.

Виникла проблема? Надішліть її в систему відстеження проблем

Маєте пропозицію щодо нової функції? Створіть для цього також обговорення, і ми зможемо обговорити його реалізацію. Запити без супутніх проблем будуть розглянуті, але, ймовірно, займуть більше часу для всіх, особливо якщо я вирішу, що нове виправлення або функціонал повинен працювати інакше, ніж було запропоновано.

Якщо у вас немає Github або ви не бажаєте ним користуватися, ви можете написати мені листа - cartertemm@gmail.com

Дякую за підтримку!