Форум RUS-BD: Всеобщая свалка сканов - Форум RUS-BD

Перейти к содержимому

 
  • (28 Страниц)
  • +
  • « Первая
  • 26
  • 27
  • 28
  • Вы не можете создать новую тему
  • Вы не можете ответить в тему

Всеобщая свалка сканов Триумфальное возвращение

#541 Пользователь офлайн   iskal

  • Отец-основатель
  • PipPipPipPipPip
  • Группа: Комьюнити
  • Сообщений: 3 798
  • Регистрация: 25-сентября 09
  • ГородMilano

Отправлено 07 ноября 2019 - 11:39

я именно про бизнес идею, а не для удобство нас нескольких гиков. То есть чтоб уйти от нарушения авторских прав - пользователь сам загрузил скан и получил перевод - где он его взял нас не касается. думаю такое приложение могло бы иметь коммерческий успех - а потом к нему можно прикрутить и изучение иностранных языков (то что я уже давно пытаюсь реализовать).
  Текущие переводы -  Les eaux de Mortelune - T02 (с английского), Альфа - T01 (с английского)

 
0

#542 Пользователь офлайн   van_der_alex

  • Гуру
  • PipPipPipPipPip
  • Группа: Комьюнити
  • Сообщений: 2 448
  • Регистрация: 28-сентября 09
  • Городнет

Отправлено 08 ноября 2019 - 12:46

Просмотр сообщенияTYLERR (07 Ноябрь 2019 - 11:46):

Так мы уже с van_der_alex давно об этом говорим. Но скорее не онлайн переводчик, это можно потом (там можно много функционала прикрутить). А просто хотя бы что-то типа онлайн-библиотеки с живыми текстами внутри баллонов. Можно начать с заброшенных или не переведенных серий...

Вот, например, я спокойно прочитал несколько выпусков Dragonero с автопереводом итальянского на английский при нажатии на баллоны:
Изображение

Понятно, кто-то скажет: "Ой, ну что за фигня! Это не серьезно. Текст в баллонах не красиво сидит! Не в Фотошопе!". Зато не нужно ждать никого из сканслейтеров или официалов, читаешь что хочешь. Понятно онлайн-переводчик - не идеальное решение. Но тут задача стоит в быстром прочтении или ознакомлении. Понравилась серия, пожалуйста переводи...

На самом деле, онлайн переводчик выдает уже сейчас текст на уровне a2-b1 владения языком. Да, конечно часто возникают двусмысленности, полностью заменить человека он ближайшее время не сможет, но нам то и не надо заменять переводчика, нам надо понимание основного смысла, и разные идиомы и культурные особенности языка и сленга чаще всего можно игнорировать, понимание смысла все равно останется. То есть для понимания 90% текста он уже сейчас может использоваться, и думаю с развитием нейросетей мы уже через лет 5 прийдем к понимаю того, что учить другой язык не обязательно - переводчика будет хватать для БОЛЬШИНСТВА задач, включая литературное чтение. Учитывая, как шикарно гугл распознает даже очень плохие сканы с малопонятными комикс-шрифтами, фактически уже сейчас можно получить некий универсальный инструмент, именно на нейросетях - автопоиск баллонов с текстом (тут пока нет готовых инструментов, все упирается именно в этот пункт), автораспознавание шрифта (в сети есть куча сайтов с автоподбором шрифта по образцу), автоперевод (собственно гугл транслейт или что то похожее) и вывод картинки аналогичной исходной, но уже на нужном тебе языке (подгоняем нужный текст нужным шрифтом в баллон с нужным выравниванием). Технологии уже готовы, к сожалению нет профессионалов, которые бы написали софт с учетом именно особенностей комиксов, и которые двигаются в данном направлении. Пока это удел энтузиастов одиночек, которые пользуются готовыми решениями и частично ручным трудом.
2

#543 Пользователь офлайн   van_der_alex

  • Гуру
  • PipPipPipPipPip
  • Группа: Комьюнити
  • Сообщений: 2 448
  • Регистрация: 28-сентября 09
  • Городнет

Отправлено 13 ноября 2019 - 07:33

Коллеги, а нет у нас никого, кто бы владел c++ (желательно с qt)? Есть интересная идея по изменению программы http://capture2text.sourceforge.net/ - убрать этот кривой ocr который даже обычный текст распознает с ошибками и впилить туда google ocr api. Фактически, программа на 90% уже умеет делать что надо, по щелчку мыши в баллоне обычно корректно определяет баллон и отправляет текст на распознавание. Идея именно распознавать через google, что позволит значительно улучшить качество распознавания, и немного изменить вид окна конечного вывода (заменить его на белый прямоугольник без рамки именно такого размера и положения как распознаваемый текст, как будто это настоящий баллон). Также опционально можно добавить для маленьких сканов поддержку waifu2x - это нейросеть для увеличения размера фото и уменьшения шума - творит просто чудеса с плохими сканами, ремоендую попробовать кто не в знал про нее.
0

#544 Пользователь офлайн   TYLERR

  • Бывалый
  • PipPipPip
  • Группа: Участник
  • Сообщений: 118
  • Регистрация: 10-августа 10
  • ГородСаратов

Отправлено 13 ноября 2019 - 13:55

Просмотр сообщенияvan_der_alex (13 Ноябрь 2019 - 08:33):

Коллеги, а нет у нас никого, кто бы владел c++ (желательно с qt)? Есть интересная идея по изменению программы http://capture2text.sourceforge.net/ - убрать этот кривой ocr который даже обычный текст распознает с ошибками и впилить туда google ocr api. Фактически, программа на 90% уже умеет делать что надо, по щелчку мыши в баллоне обычно корректно определяет баллон и отправляет текст на распознавание. Идея именно распознавать через google, что позволит значительно улучшить качество распознавания, и немного изменить вид окна конечного вывода (заменить его на белый прямоугольник без рамки именно такого размера и положения как распознаваемый текст, как будто это настоящий баллон). Также опционально можно добавить для маленьких сканов поддержку waifu2x - это нейросеть для увеличения размера фото и уменьшения шума - творит просто чудеса с плохими сканами, ремоендую попробовать кто не в знал про нее.


Я cделал скрипт на PHP + Google API и вот с какими проблемами столкнулся:

1. Google часто помимо текстов в баллонах распознает разные шумы в качестве текста. Так что автоматом править сканы на основе его распознавания не очень хорошая идея. Такое может прокатить в полуавтоматическом варианте, когда, например, ты загрузил скан, он тебе вывел результаты, ты убрал ненужное и после нажатия на кнопку он очистил баллоны.
2. Но и дальше идет проблема: баллоны бывают двух типов в основном: прямоугольные и круглые. Первый вариант самый легкий, во втором область распознавания (а это всегда прямоугольник) часто выходит за края круга (особенно если внутренние отступы маленькие). Это можно решить получая координаты прямоугольника не всей области, а отдельных предложений. У меня пока не получилось такое. Плюс конечно нужно распознавать цвет фона сразу под текстом, чтобы таким же цветом и заливать. Это не прокатит со сложными фонами.

Поэтому сканы я очищаю руками. Тексты же распознаю пакетно скриптом. Опять же есть тексты (например, итальянские) внутри баллонов которых идут переносы слов. Это затрудняет процесс.

Также я заказываю своему исполнителю часто набор (100р/том) и очистка (50р/том) когда нет времени особо...
0

#545 Пользователь офлайн   van_der_alex

  • Гуру
  • PipPipPipPipPip
  • Группа: Комьюнити
  • Сообщений: 2 448
  • Регистрация: 28-сентября 09
  • Городнет

Отправлено 13 ноября 2019 - 14:22

Речь не идет об автоматическом получении другого скана и что-то типа такого, а о том, чтобы по щелчку получить окно на месте реального баллона, в котором будет текст гугл перевода. Если переведется не очень корректно, можно этот текст там же и поправить, и снова перевести. Ну то есть идея что это чтобы не иметь базу переводов как у тебя, а именно инструмент для чтения любого комикса. Да, возможно не каждый баллон будет распознан корректно. Ну и фиг с ним. Зато за секунду будет текст, который можно будет скопировать в словарь, исправить и перевести заново. Или просто понять смысл.
1

#546 Пользователь офлайн   TYLERR

  • Бывалый
  • PipPipPip
  • Группа: Участник
  • Сообщений: 118
  • Регистрация: 10-августа 10
  • ГородСаратов

Отправлено 13 ноября 2019 - 15:27

Просмотр сообщенияvan_der_alex (13 Ноябрь 2019 - 15:22):

Речь не идет об автоматическом получении другого скана и что-то типа такого, а о том, чтобы по щелчку получить окно на месте реального баллона, в котором будет текст гугл перевода. Если переведется не очень корректно, можно этот текст там же и поправить, и снова перевести. Ну то есть идея что это чтобы не иметь базу переводов как у тебя, а именно инструмент для чтения любого комикса. Да, возможно не каждый баллон будет распознан корректно. Ну и фиг с ним. Зато за секунду будет текст, который можно будет скопировать в словарь, исправить и перевести заново. Или просто понять смысл.


Ну такое думаю можно сделать. Надо Си учить)

А ты что бы вот сейчас почитал из непереведенного?
0

#547 Пользователь офлайн   van_der_alex

  • Гуру
  • PipPipPipPipPip
  • Группа: Комьюнити
  • Сообщений: 2 448
  • Регистрация: 28-сентября 09
  • Городнет

Отправлено 13 ноября 2019 - 18:35

Да это не ради чего-то конкретного. Тут именно психологический фактор - пока что-то недоступно, его хочется гораздо больше, чем когда оно у тебя есть. Вот предположим был какой то комикс классный на френче. И ты думал - вот бы он появился на английском, так хочется почитать. А потом он бац - появился, и уже и не так хочется, то времени нет, то что-то более интересное на горизонте.
0

#548 Пользователь офлайн   klimov1963

  • Участник
  • PipPipPipPip
  • Группа: Комьюнити
  • Сообщений: 287
  • Регистрация: 27-февраля 18
  • ГородХарьков

Отправлено 13 ноября 2019 - 23:54

Вставлю свои три копейки, может, не совсем в тему. Пользуюсь для распознавания текста такой маленькой программкой ScreenshotReader от ABBYY, еще и portable. Распознает текст достаточно точно, на шрифтах типа CCcomicrazy,CCMeanwhile процентов 90.Голландские, немецкие сканы тоже достаточно прилично. А вот французские, у которых часто вычурные шрифты, плохо. У старшего брата Finereader есть опция тренировки распознавания, но попробовал, муторно.И вот из всего вышеизложенного возникла идея-вопрос к программистам: насколько сложно создать что-то маленькое и шустрое типа ScreenshotReader, но с возможностью загрузки конкретного шрифта, т.е. чтобы не тренировать, а загрузить готовый шрифт (в инете можно подобрать многие) типа True, а прога сама из таблицы глифов пусть подбирает соответствующий символ. Можно было бы добиться 100 процентов распознавания текста.Как-то так.
0

#549 Пользователь офлайн   van_der_alex

  • Гуру
  • PipPipPipPipPip
  • Группа: Комьюнити
  • Сообщений: 2 448
  • Регистрация: 28-сентября 09
  • Городнет

Отправлено 14 ноября 2019 - 07:44

Просмотр сообщенияklimov1963 (14 Ноябрь 2019 - 02:54):

Вставлю свои три копейки, может, не совсем в тему. Пользуюсь для распознавания текста такой маленькой программкой ScreenshotReader от ABBYY, еще и portable. Распознает текст достаточно точно, на шрифтах типа CCcomicrazy,CCMeanwhile процентов 90.Голландские, немецкие сканы тоже достаточно прилично. А вот французские, у которых часто вычурные шрифты, плохо. У старшего брата Finereader есть опция тренировки распознавания, но попробовал, муторно.И вот из всего вышеизложенного возникла идея-вопрос к программистам: насколько сложно создать что-то маленькое и шустрое типа ScreenshotReader, но с возможностью загрузки конкретного шрифта, т.е. чтобы не тренировать, а загрузить готовый шрифт (в инете можно подобрать многие) типа True, а прога сама из таблицы глифов пусть подбирает соответствующий символ. Можно было бы добиться 100 процентов распознавания текста.Как-то так.

Пользуюсь лингво, который как раз имеет встроенный модуль распознавания точно тот же что и в скриншотридере, давным давно. Работает хорошо со стандартными шрифтами, чуть наклон (да, именно наклон обычного шрифта) или написание хотя бы одной буквы нестандартное - все, приплыли.
Файнридер тоже использовал. Во первых, обучение это очень муторно, ну и оно тоже работает так себе особенно с буквами с точками акцентами и т.д. - то есть именно их распознает слабо). У френча вообще проблема в том, что очень часто шрифт рукописный - это одна и та же буква всегда немного разная. даже если и нет и шрифт какой-то всегда одинаковый, тут другая проблема. Иногда в моих тысячах рипов я находил косяки и ошибки - и тогда я исправлял их самостоятельно. Так вот - найти шрифт именно такой какой использовался - нереально. Ради интереса возьмите штук 10 разных релизов европ комикс - у них обычно фишка использовать проприетарные шрифты - и попробуйте найти точно такой же, и чтобы его скачать можно было. Такое ощущение, что они берут какой-то шрифт, потом исправляют часть букв, и делают свой - чтобы авторские права не платить. Потому что некоторые буквы 100% попадание,а некоторые вообще другие. И найти именно такой шрифт мой опыт говорит что получится крайне редко. А тут еще и программу надо которой нет :) В общем, игра не стоит свеч. Потому что есть гугл OCR - он использует нейросети, а не стандартное распознавание. Он даже кривой рукописный шрифт например с Аниты бомбы который я ради интереса мучил на файнридере с нулевым результатом в режиме обучения, распознает очень и очень прилично. Так что все что надо - это просто иметь удобный интерфейс к сервису гугл, вот мое мнение.
1

#550 Пользователь офлайн   iskal

  • Отец-основатель
  • PipPipPipPipPip
  • Группа: Комьюнити
  • Сообщений: 3 798
  • Регистрация: 25-сентября 09
  • ГородMilano

Отправлено 16 ноября 2019 - 11:49

Мне кажется, чтоб дело сдвинулось с точки, нам - энтузиастам, надо объединиться и попробовать сделать коммерческий продукт. Условно говоря читалку - с возможностью перевода.
  Текущие переводы -  Les eaux de Mortelune - T02 (с английского), Альфа - T01 (с английского)

 
0

#551 Пользователь офлайн   iskal

  • Отец-основатель
  • PipPipPipPipPip
  • Группа: Комьюнити
  • Сообщений: 3 798
  • Регистрация: 25-сентября 09
  • ГородMilano

Отправлено 18 ноября 2019 - 20:15

Вмижу теперь не только я забеспокоился! На Каскусе тоже народ заволновался - ломки начались...
van_der_alex - появится что-то новое - давай сразу у нас пость! Пора уже с каскуса перебираться.
  Текущие переводы -  Les eaux de Mortelune - T02 (с английского), Альфа - T01 (с английского)

 
0

  • (28 Страниц)
  • +
  • « Первая
  • 26
  • 27
  • 28
  • Вы не можете создать новую тему
  • Вы не можете ответить в тему

1 человек читают эту тему
0 пользователей, 1 гостей, 0 скрытых пользователей