11 Jan 2013

Scannen etc.

Submitted by ebertus

Manche Dinge benötigen einen Anlass, um irgendwann dann weiter verfolgt zu werden, weil es grundsätzlich nützlich erscheint. Ab und zu besteht meinerseits der Bedarf, aus einem Buch etc. zu zitieren, wo (mir) der Text naturgemäß nicht in digitaler Form verfügbar ist. Abtippen ist natürlich möglich, bei längeren Texten fehlerbehaftet und grundsätzlich mühsam; heute wohl etwas um die Ecke.

Scannen allein hilft auch nicht wirklich, weil der Text dann ja lediglich als Grafik vorliegt, welche man nicht so einfach als Text via copy&paste weiter verarbeiten kann. Somit ist zusätzlich immer noch eine sog. Texterkennung, eine separate Software nötig. Dahingehend eigene Erfahrungen liegen schon etwas zurück und ein aktueller, kurzer Check ergibt, dass für ein gutes Programm gern schon mal 100 Euro anfallen; für das hier beispielsweise. Ok, vielleicht lade ich mir die angebotene kostenlose Testsoftware mal runter, verwende jedoch für allfällige Tests vorerst FreeOCR. Wichtiger ist mir momentan, den gesamten Prozess zu überdenken, auch zwei weitere Anforderungen möglichst noch zu integrieren.

1. Der eingangs genannte Anlass war das bestellte, diese Tage gelieferte aktuelle Buch von Judith Butler namens "Parting Ways"; und bislang nicht in deutscher Sprache erhältlich - wer weiss wann. Das Problem (für mich) sind da weniger fehlende Englischkenntnisse sondern die dann zumindest notwendige "gute" Lesbarkeit der Schrift. Butlers Buch ist in einer extrem kleinen Schrift gesetzt, das will und muss ich mir nicht antun, weil wegen dem Fremdsprachlichen eh' schon ein konzentrierteres Lesen angesagt ist. Bei Peter Beinarts "The Crisis of Zionism" gibt es dieses Problem übrigens nicht, ist mir generell eine derart kleine Schrift und erst recht in einem gebundenen Buch noch nie untergekommen.

2. Texte, ob aus den Medien (Zeitungen, Zeitschriften) oder aus Büchern unterliegen in der Regel einem Copyright, dürfen ohne Zustimmung des Rechteinhabers nicht öffentlich verwendet, gar verbreitet, bestenfalls via dem sog. Zitatrecht sehr begrenzt genutzt werden. Andererseits -so meine ich- dürfte es (mir) nicht verboten sein, aus einem rechtmäßig erworbenem Buch die Texte intern, für den Eigengebrauch digital aufzubereiten und in meinem Umfeld (für mich) vorzuhalten; Stichwort: Privatkopie. Weitergedacht eine sehr komplexe Fragestellung, wenn man an heute nicht unüblichen, sog. Paycontent denkt für den man möglicherweise registriert ist (wie meinerseits bei Haaretz). Auch diese nach Anmeldung für mich lesbaren Inhalte darf ich mit Sicherheit nicht öffentlich zugänglich machen.

Zusammen betrachtet wäre es also möglich, Bücher oder andere Texte komplett oder teilweise zu digitalisieren, darüber in eine mir angenehme, nutzbare Form (Schriftgröße etc.) zu bringen und danach strukturiert in meinem Webumfeld zugriffsgesichert abzulegen; damit immer und von überall her im Zugriff zu haben.

Das wäre nun also zu testen: Siehe hier...

 

Nachtrag 17.01.2013:

Scanit funktioniert in der Vollversion hervorragend, ist beispielsweise die nachträgliche Ausrichtung der kopierten und gezoomten Seiten (und noch vor der Texterkennung) der absolute Bringer. Verschieden große Schriftarten werden einwandfrei "zu Text" konvertiert und auch der Stapeleinzug (bislang als Maximum 37 Seiten auf einen Streich) mit Scannen und anschließender Texterkennung geht sehr zügig.

PDF-24 ergänzt Scanit um dort nicht enthaltene Funktionen wie das Einlesen einzelner Seiten aus dem Dateisystem oder das Verbinden einzelner PDFs zu einer großen Datei. Schlußendlich kann darüber auch die Qualität und damit die Dateigröße gesteuert werden, was gerade den möglichst zügigen Zugriff über das Netz angeht.

Ok, das oben unter Punkt 1) genannte Problem ist erledigt, das erwähnte Buch nun vernünftig lesbar, am Bildschirm und auf dem Papier; ist gar bequem via copy&paste weiter zu verarbeiten. An dem zweiten Punkt arbeite ich noch, was die Struktur der Ablage  und die Bereitstellung, aber auch den gesicherten Zugriff betrifft. Die Funktionalität von ".htaccess" auf Verzeichnisebene und gar aus Drupal (dessen Berechtigungssystem) heraus zu gewährleisten, das ist nicht unbedingt so trivial.

 

es geht doch viel einfacher:

http://goo.gl/88Q2I

zumal die Downloads noch meist preisgünstiger sind als das Paperbook.

Meine Empfehlung für OCR: http://goo.gl/519kj oder http://goo.gl/5nxHo

"scanit" wird es doch wieder

vielleicht...Bei nochmaliger Nachfrage wurde mir bestätigt, dass in der Vollversion "natürlich" nichts ist, was in dem eingescannten Original nicht ebenfalls enthalten ist - also keine zusätzlichen Daten/Informationen in das erstellte PDF eingebracht werden. Ok, hätte mich auch schwer gewundert; habe mal eine Lizenz bestellt.

-----
Nö, in jeder gescannten Seite ist auch in der Vollversion oben der Firmenname enthalten sagt mir die Mailantwort. Ist ja wie bei Freeware, die sich mit Reklame finanziert.

Unten Geschriebenes ist dahingehend also bereits Makualatur!

-----
Der Tip war gut!

Habe das Programm getestet und gerade wegen einiger noch offener Fragen eine Mail an den Support geschickt. Scheint wesentlich professioneller als das genannte FreeOCR und auch Dein anderer Tip (CaptureText) macht nicht wirklich das, was ich brauche.

Ok, 40 Euro sind da wohl angemessen, denke ich in Verbindung mit dem kostenlosen "PDF24-Creator" gleich noch über den Tellerrand hinaus.

http://www.jbsoftware.de/scanit/index.htm

http://de.pdf24.org/

Noch einfacher...?

28 Seiten (von 250!) für den ersten Eindruck bzw. zum sog. Anfüttern? Ok, das ".pdf" kann man dann wenigstens runterladen, auch textorientiert copy&pasten.

Downloads sind oft günstiger, ja! Butlers Buch kostet als Kindle-Version lediglich 14,41 statt 22,95 Euro gebunden. Nur sorry, kommt mir dieses proprietäre DRM-Zeugs nicht in die Tüte, sprich: in das Haus. Die (für mich) substantiellen Gründe habe ich ja bereits anderweitig ausgeführt.

Danke für den Hinweis auf weitere OCR-Programme. Da ich relativ faul bin, so lege ich Wert darauf, dass das eingesetzte Programm mit meinem "Brother7440n", dessen Stapeleinzug und eben im lokalen Netz zusammenarbeitet. In dem Zusammenhang und nochmal zu dem erwähnten Buch mit der Minischrift. "Entbinden" ist wohl die einzige, die richtige Lösung, weil ich es so eh' nicht wirklich entspannt werde lesen (können) und sich einzelne Seiten wesentlich besser im Kopier- und Scanprozess handhaben lassen als ein sperriges, noch komplettes Buch; und das Seite für Seite...

Du scheinst es halt umständlich zu

lieben, ok, warum auch nicht? Wenn einem die Zeit nicht zu schade dafür ist: das "DRM-Zeugs" ist in mehrfacher Hinsicht entspannender, das ist nun mal Fakt.

Es ist, auch in diesem Fall, eben alles nur eine Frage der Zeit.......

Eine Frage der Zeit

Richtig! Wenn es analog der ehemals kopiergeschützten Computerprogramme, der nach wie vor oft kopiergeschützten CD's und DVD's einfache, beinahe en passant zu handhabende Möglichkeiten einer privatkopiegemäßen Überwindung gibt, bei DRM die allfälligen Überwachungs- und Manipulationsmöglichkeiten gleich mit versenkt werden können -

dann bin ich dabei. Die Technik selbst ist OK, kann nur noch besser werden...!