AE35 said:

AE35

Det Kongelige Bibliotek har digitaliseret 240.000 sider tidskrifter - kan ses live i morgen http://tidsskrift.dk/

1 year, 6 months ago.

33 comments so far

  • AE35

    Det har taget hele 6 år fra projektet blev søsat --- Nå men bliver interessant at se hvordan OCR'en er gået

    1 year, 6 months ago by AE35

  • AE35

    Håber ikke at det er blevet konvertet til kun PDF format :-(

    1 year, 6 months ago by AE35

  • AE35

    Øv - læser andet sted - "Ligesom deres danske modstykke har det amerikanske statsbibliotek planlagt at offenliggøre scanningerne. Og ligesom danskerne, har man valgt at fremstille søgbare PDF'er fra de originale scans. " http://www.comon.dk/news/library.of.congress.digitaliserer.ogsaa_31081.html - Hvis man synes at staten er i seng med Microsoft - så er de også i seng med Adobe på dokumentfronten altid og evigt tilbydes kun dette format til en hver ting -

    1 year, 6 months ago by AE35

  • Mirtar

    Hvad skulle alternativet da været til PDF? (PDF er i min verden ikke længere synonym med Adobe, tværtimod).

    1 year, 6 months ago by Mirtar

  • EsbenThomsen

    håber de har taget gutenberg med.

    Men lidt noget pis med fil formatet, men Adobe har åbnet lidt op for det

    1 year, 6 months ago by EsbenThomsen

  • AE35

    Jeg mener der skal tilbydes multi formater - XML, PDF, JSON etc. sådan som man kan fx få det Google Analycis ved eksport af rapporter. - Anden grund jeg er lidt sur på altid PDF er at jeg ofte skal bruge data fra tabeller - Hvorfor tilbyder man ikke forskellige formatter i eksport her som vi ser i det i Google Doc - XML, JSON, CSV, PDF

    1 year, 6 months ago by AE35

  • AE35

    Valgfri er godt - og folk har forskellige referencer hvilket format de bedst kan lide ... at arbejde videre med

    1 year, 6 months ago by AE35

  • AE35

    Undskyld - JSON var ikke med i Google Analycis -

    1 year, 6 months ago by AE35

  • Mirtar

    Skulle man samle dataen i en XML-fil, ville man ende med en masse "blop-data", da billeder, illustrationer osv ikke rigtigt er fungerer med "rå tekst". Det gælder samtlige webservices. Google-docs-shit er ikke en skid værd når det kommer til andet end at skrive et brev til farmor. CVS, sød idé, men ubrugelig til andet end tabeldata. Skulle de have gjort det godt, frit og åbent, skulle de bruge postscript ... så kan alle selv konverterer det til pdf, da postscript-readers ikke er kendt blandt folket.

    Jeg synes sgu at det er fint at de har taget det første skridt og lavet dataen digital og ikke i et skod format som html-filer med tilhørende "hovsa gif-billeder" eller en wordfil. At du måske skal bruge tabeldata, surt. Jeg vil til hver en tid vægte illustrationer og ja, typografien (guttenbergeren) over lidt pjattet tabel-snask.

    1 year, 6 months ago by Mirtar

  • thoeger

    Hmm, er PDF ikke et aabent format idag...?

    1 year, 6 months ago by thoeger

  • EsbenThomsen

    nope

    1 year, 6 months ago by EsbenThomsen

  • AE35

    Nu får vi at se om de har lavet OCR af artikler i to spaltet PDF format -(Tidskrifterne der er er indskannet er tosplatet)

    Hvilket er et helvede at læse online hvis artiklen er mere end 3-4 sider lang da man scroller op og ned hele tiden. hvilket også er grunden til at folk printer regnskove af PDF filer ud

    1 year, 6 months ago by AE35

  • Mirtar

    @Esben jooeh, PDF er blevet åben standard. @AE35, så må du få en større skærm ;-)

    1 year, 6 months ago by Mirtar

  • EsbenThomsen

    ja åben standard.. men ikke åbent format

    1 year, 6 months ago by EsbenThomsen

  • AE35

    @Mirtar - eller bedre briller så jeg kan zoome ned -

    1 year, 6 months ago by AE35

  • EsbenThomsen

    Mirtar har en 20" stationær.. han ændre nok meningen når/hvis han får en bærbar :-p

    1 year, 6 months ago by EsbenThomsen

  • kimbach

    En lidt sjov historie vedr. digitalisering er Ordbog Over Det Danske Sprog på Nettet. De droppede OCR, men havde i stedet en flok Kinesere til at indtaste data. Fordel 1: De forstår ikke Dansk, og prøvede derfor ikke på at "rette" fejl. Fordel 2: De fik faktisk lavet 2 uafhængige udgaver som de herefter kunne sammenligne, som en super kvalitetssikring.

    Mht. PDF, så er det næsten en åben standard i dag, det er i hvertfald en standard. En af grundene til at jeg ikke vil kalde det en åben standard, er f.eks. at Adobe blokerede Microsoft fra at indbygge PDF i Office 2007.

    1 year, 6 months ago by kimbach

  • Mirtar

    Ja okay, Adobe styrer i hvad retning PDF går. Alle kan stadig lave og læse PDF-filer. Jeg ærgrer mig også lidt over at vi ikke har 1mia. forskellige PDF-standarder hehe ;-)

    1 year, 6 months ago by Mirtar

  • AE35

    Ellers må jeg få PDF filen læst op af den behagelige syntetiske "adgangforalle.dk" stemme

    1 year, 6 months ago by AE35

  • EsbenThomsen

    Kim du har tydeligvis ikke helt styr på adobe/MS konflikten.. alle må indsætte pdf standard, hvis de overholder adobes regler, hvilket MS ikke gjorde.

    Adobe styre skid overhovedet! PDF er et godt format, men har altså nogle legacy problemer.

    1 year, 6 months ago by EsbenThomsen

  • kimbach

    Næh det har jeg åbenbart ikke, så det må jeg jo læse op på ;-). PDF støtten kommer i hvertfald i Office 2007 SP2. Bortset fra det så burde PDF være et overflødigt format, og de har overgivet kontrollen, men det skyldes i høj grad pres fra andre standarder, de ville vist helst have været fri...

    1 year, 6 months ago by kimbach

  • AE35

    @kimbach .- det sjove er så når du har Adobe Acrobat installeret - så bliver der i din Office Word installeret plugin til konvertering af til PDF.

    Her finder vi også grunden til denne vækst i PDF selv til 1 side pressemedelelser og i ren tekst- De bliver skrevet i Word og så trykker kontormussen på "Adobe PDF" plugin ---

    1 year, 6 months ago by AE35

  • kimbach

    LOL. Her er i øvrigt Adobes begrundelse for at blokere Microsoft (for det mener jeg stadig de gjorde), men det afhænger jo nok at øjnene der ser, og jeg er uenig med Adobe (de har set sig "sure" på XPS, og det er jo også en trussel mod Adobes guldæg):

    "Adobe's concern is that Microsoft will fragment and possibly degrade existing and established standards, including PDF, while using its monopoly power to introduce Microsoft-controlled alternatives—such as XPS."

    "The long-term impact of this kind of behavior is that consumers are ultimately left with fewer choices."

    1 year, 6 months ago by kimbach

  • EsbenThomsen

    De hev det ude af juridiske årsager, hvilket tyder på at de ikke fulgte de gængse retningslinier.

    Det er vel forståeligt nok, når man ser på css krigen

    1 year, 6 months ago by EsbenThomsen

  • EsbenThomsen

    @jacob, så vidt jeg husker kan man da vist eksportere til html i office, eller er det kun excel?

    1 year, 6 months ago by EsbenThomsen

  • kimbach

    Bortset fra det er Det Kongelige Bibliotek vel underlagt 2-format forsøget som er en udløber af B109 (Folketingsbeslutning om åbne standarder), og skal kunne levere i både ODF (Open Office) og OOXML (Microsoft Office 2007/2008).

    Men tilbage til emnet: fedt at Det Kongelige Bibliotek har sådan et projekt.

    1 year, 6 months ago by kimbach

  • AE35

    @Kimbach - vi må fortsætte i morgen når de går live og se hvad de egentlig disker op med.

    1 year, 6 months ago by AE35

  • Esse

    Tidsskrift.dk er åbnet og det ser ud til at udgangspunktet er xml med mulighed for såvel formateret html i fuldteksten og pdf. Sgu' da meget sejt.

    1 year, 6 months ago by Esse

  • EsbenThomsen

    ja det ser faktisk rent fint ud :-)

    1 year, 6 months ago by EsbenThomsen

  • Mirtar

    hmm øv, hvad fanden skal man så bitche over?

    1 year, 6 months ago by Mirtar

  • kimbach

    Køligt nok. Noget tyder på at det er baseret på JSTOR, men det ville have klædt dem at offentliggøre source-koden, og gøre det muligt for folk selv at oprette digitalt indhold, som det er nu tilbyder de en, dog ok prissat, OCR-skannings tjeneste

    1 year, 6 months ago by kimbach

  • EsbenThomsen

    flere fomater :-p ej jeg er glad for at det ikke kun er billeder, hvilket ville have gjort det ubrugeligt.

    1 year, 6 months ago by EsbenThomsen

  • AE35

    Ja jeg rejser hænderne og klapper for deres tiltag! godt gået KB

    1 year, 6 months ago by AE35

Sign in to add a comment