Øv - læser andet sted - "Ligesom deres danske modstykke har det amerikanske statsbibliotek planlagt at offenliggøre scanningerne. Og ligesom danskerne, har man valgt at fremstille søgbare PDF'er fra de originale scans. " http://www.comon.dk/news/library.of.congress.digitaliserer.ogsaa_31081.html - Hvis man synes at staten er i seng med Microsoft - så er de også i seng med Adobe på dokumentfronten altid og evigt tilbydes kun dette format til en hver ting -
Jeg mener der skal tilbydes multi formater - XML, PDF, JSON etc. sådan som man kan fx få det Google Analycis ved eksport af rapporter. - Anden grund jeg er lidt sur på altid PDF er at jeg ofte skal bruge data fra tabeller - Hvorfor tilbyder man ikke forskellige formatter i eksport her som vi ser i det i Google Doc - XML, JSON, CSV, PDF
Skulle man samle dataen i en XML-fil, ville man ende med en masse "blop-data", da billeder, illustrationer osv ikke rigtigt er fungerer med "rå tekst". Det gælder samtlige webservices. Google-docs-shit er ikke en skid værd når det kommer til andet end at skrive et brev til farmor. CVS, sød idé, men ubrugelig til andet end tabeldata. Skulle de have gjort det godt, frit og åbent, skulle de bruge postscript ... så kan alle selv konverterer det til pdf, da postscript-readers ikke er kendt blandt folket.
Jeg synes sgu at det er fint at de har taget det første skridt og lavet dataen digital og ikke i et skod format som html-filer med tilhørende "hovsa gif-billeder" eller en wordfil. At du måske skal bruge tabeldata, surt. Jeg vil til hver en tid vægte illustrationer og ja, typografien (guttenbergeren) over lidt pjattet tabel-snask.
Nu får vi at se om de har lavet OCR af artikler i to spaltet PDF format -(Tidskrifterne der er er indskannet er tosplatet)
Hvilket er et helvede at læse online hvis artiklen er mere end 3-4 sider lang da man scroller op og ned hele tiden. hvilket også er grunden til at folk printer regnskove af PDF filer ud
En lidt sjov historie vedr. digitalisering er Ordbog Over Det Danske Sprog på Nettet. De droppede OCR, men havde i stedet en flok Kinesere til at indtaste data. Fordel 1: De forstår ikke Dansk, og prøvede derfor ikke på at "rette" fejl. Fordel 2: De fik faktisk lavet 2 uafhængige udgaver som de herefter kunne sammenligne, som en super kvalitetssikring.
Mht. PDF, så er det næsten en åben standard i dag, det er i hvertfald en standard. En af grundene til at jeg ikke vil kalde det en åben standard, er f.eks. at Adobe blokerede Microsoft fra at indbygge PDF i Office 2007.
Ja okay, Adobe styrer i hvad retning PDF går. Alle kan stadig lave og læse PDF-filer. Jeg ærgrer mig også lidt over at vi ikke har 1mia. forskellige PDF-standarder hehe ;-)
Næh det har jeg åbenbart ikke, så det må jeg jo læse op på ;-). PDF støtten kommer i hvertfald i Office 2007 SP2. Bortset fra det så burde PDF være et overflødigt format, og de har overgivet kontrollen, men det skyldes i høj grad pres fra andre standarder, de ville vist helst have været fri...
@kimbach .- det sjove er så når du har Adobe Acrobat installeret - så bliver der i din Office Word installeret plugin til konvertering af til PDF.
Her finder vi også grunden til denne vækst i PDF selv til 1 side pressemedelelser og i ren tekst- De bliver skrevet i Word og så trykker kontormussen på "Adobe PDF" plugin ---
LOL. Her er i øvrigt Adobes begrundelse for at blokere Microsoft (for det mener jeg stadig de gjorde), men det afhænger jo nok at øjnene der ser, og jeg er uenig med Adobe (de har set sig "sure" på XPS, og det er jo også en trussel mod Adobes guldæg):
"Adobe's concern is that Microsoft will fragment and possibly degrade existing and established standards, including PDF, while using its monopoly power to introduce Microsoft-controlled alternatives—such as XPS."
"The long-term impact of this kind of behavior is that consumers are ultimately left with fewer choices."
Bortset fra det er Det Kongelige Bibliotek vel underlagt 2-format forsøget som er en udløber af B109 (Folketingsbeslutning om åbne standarder), og skal kunne levere i både ODF (Open Office) og OOXML (Microsoft Office 2007/2008).
Men tilbage til emnet: fedt at Det Kongelige Bibliotek har sådan et projekt.
Køligt nok. Noget tyder på at det er baseret på JSTOR, men det ville have klædt dem at offentliggøre source-koden, og gøre det muligt for folk selv at oprette digitalt indhold, som det er nu tilbyder de en, dog ok prissat, OCR-skannings tjeneste
33 comments so far
Det har taget hele 6 år fra projektet blev søsat --- Nå men bliver interessant at se hvordan OCR'en er gået
1 year, 6 months ago by AE35
Håber ikke at det er blevet konvertet til kun PDF format :-(
1 year, 6 months ago by AE35
Øv - læser andet sted - "Ligesom deres danske modstykke har det amerikanske statsbibliotek planlagt at offenliggøre scanningerne. Og ligesom danskerne, har man valgt at fremstille søgbare PDF'er fra de originale scans. " http://www.comon.dk/news/library.of.congress.digitaliserer.ogsaa_31081.html - Hvis man synes at staten er i seng med Microsoft - så er de også i seng med Adobe på dokumentfronten altid og evigt tilbydes kun dette format til en hver ting -
1 year, 6 months ago by AE35
Hvad skulle alternativet da været til PDF? (PDF er i min verden ikke længere synonym med Adobe, tværtimod).
1 year, 6 months ago by Mirtar
håber de har taget gutenberg med.
Men lidt noget pis med fil formatet, men Adobe har åbnet lidt op for det
1 year, 6 months ago by EsbenThomsen
Jeg mener der skal tilbydes multi formater - XML, PDF, JSON etc. sådan som man kan fx få det Google Analycis ved eksport af rapporter. - Anden grund jeg er lidt sur på altid PDF er at jeg ofte skal bruge data fra tabeller - Hvorfor tilbyder man ikke forskellige formatter i eksport her som vi ser i det i Google Doc - XML, JSON, CSV, PDF
1 year, 6 months ago by AE35
Valgfri er godt - og folk har forskellige referencer hvilket format de bedst kan lide ... at arbejde videre med
1 year, 6 months ago by AE35
Undskyld - JSON var ikke med i Google Analycis -
1 year, 6 months ago by AE35
Skulle man samle dataen i en XML-fil, ville man ende med en masse "blop-data", da billeder, illustrationer osv ikke rigtigt er fungerer med "rå tekst". Det gælder samtlige webservices. Google-docs-shit er ikke en skid værd når det kommer til andet end at skrive et brev til farmor. CVS, sød idé, men ubrugelig til andet end tabeldata. Skulle de have gjort det godt, frit og åbent, skulle de bruge postscript ... så kan alle selv konverterer det til pdf, da postscript-readers ikke er kendt blandt folket.
Jeg synes sgu at det er fint at de har taget det første skridt og lavet dataen digital og ikke i et skod format som html-filer med tilhørende "hovsa gif-billeder" eller en wordfil. At du måske skal bruge tabeldata, surt. Jeg vil til hver en tid vægte illustrationer og ja, typografien (guttenbergeren) over lidt pjattet tabel-snask.
1 year, 6 months ago by Mirtar
Hmm, er PDF ikke et aabent format idag...?
1 year, 6 months ago by thoeger
nope
1 year, 6 months ago by EsbenThomsen
Nu får vi at se om de har lavet OCR af artikler i to spaltet PDF format -(Tidskrifterne der er er indskannet er tosplatet)
Hvilket er et helvede at læse online hvis artiklen er mere end 3-4 sider lang da man scroller op og ned hele tiden. hvilket også er grunden til at folk printer regnskove af PDF filer ud
1 year, 6 months ago by AE35
@Esben jooeh, PDF er blevet åben standard. @AE35, så må du få en større skærm ;-)
1 year, 6 months ago by Mirtar
ja åben standard.. men ikke åbent format
1 year, 6 months ago by EsbenThomsen
@Mirtar - eller bedre briller så jeg kan zoome ned -
1 year, 6 months ago by AE35
Mirtar har en 20" stationær.. han ændre nok meningen når/hvis han får en bærbar :-p
1 year, 6 months ago by EsbenThomsen
En lidt sjov historie vedr. digitalisering er Ordbog Over Det Danske Sprog på Nettet. De droppede OCR, men havde i stedet en flok Kinesere til at indtaste data. Fordel 1: De forstår ikke Dansk, og prøvede derfor ikke på at "rette" fejl. Fordel 2: De fik faktisk lavet 2 uafhængige udgaver som de herefter kunne sammenligne, som en super kvalitetssikring.
Mht. PDF, så er det næsten en åben standard i dag, det er i hvertfald en standard. En af grundene til at jeg ikke vil kalde det en åben standard, er f.eks. at Adobe blokerede Microsoft fra at indbygge PDF i Office 2007.
1 year, 6 months ago by kimbach
Ja okay, Adobe styrer i hvad retning PDF går. Alle kan stadig lave og læse PDF-filer. Jeg ærgrer mig også lidt over at vi ikke har 1mia. forskellige PDF-standarder hehe ;-)
1 year, 6 months ago by Mirtar
Ellers må jeg få PDF filen læst op af den behagelige syntetiske "adgangforalle.dk" stemme
1 year, 6 months ago by AE35
Kim du har tydeligvis ikke helt styr på adobe/MS konflikten.. alle må indsætte pdf standard, hvis de overholder adobes regler, hvilket MS ikke gjorde.
Adobe styre skid overhovedet! PDF er et godt format, men har altså nogle legacy problemer.
1 year, 6 months ago by EsbenThomsen
Næh det har jeg åbenbart ikke, så det må jeg jo læse op på ;-). PDF støtten kommer i hvertfald i Office 2007 SP2. Bortset fra det så burde PDF være et overflødigt format, og de har overgivet kontrollen, men det skyldes i høj grad pres fra andre standarder, de ville vist helst have været fri...
1 year, 6 months ago by kimbach
@kimbach .- det sjove er så når du har Adobe Acrobat installeret - så bliver der i din Office Word installeret plugin til konvertering af til PDF.
Her finder vi også grunden til denne vækst i PDF selv til 1 side pressemedelelser og i ren tekst- De bliver skrevet i Word og så trykker kontormussen på "Adobe PDF" plugin ---
1 year, 6 months ago by AE35
LOL. Her er i øvrigt Adobes begrundelse for at blokere Microsoft (for det mener jeg stadig de gjorde), men det afhænger jo nok at øjnene der ser, og jeg er uenig med Adobe (de har set sig "sure" på XPS, og det er jo også en trussel mod Adobes guldæg):
"Adobe's concern is that Microsoft will fragment and possibly degrade existing and established standards, including PDF, while using its monopoly power to introduce Microsoft-controlled alternatives—such as XPS."
"The long-term impact of this kind of behavior is that consumers are ultimately left with fewer choices."
1 year, 6 months ago by kimbach
De hev det ude af juridiske årsager, hvilket tyder på at de ikke fulgte de gængse retningslinier.
Det er vel forståeligt nok, når man ser på css krigen
1 year, 6 months ago by EsbenThomsen
@jacob, så vidt jeg husker kan man da vist eksportere til html i office, eller er det kun excel?
1 year, 6 months ago by EsbenThomsen
Bortset fra det er Det Kongelige Bibliotek vel underlagt 2-format forsøget som er en udløber af B109 (Folketingsbeslutning om åbne standarder), og skal kunne levere i både ODF (Open Office) og OOXML (Microsoft Office 2007/2008).
Men tilbage til emnet: fedt at Det Kongelige Bibliotek har sådan et projekt.
1 year, 6 months ago by kimbach
@Kimbach - vi må fortsætte i morgen når de går live og se hvad de egentlig disker op med.
1 year, 6 months ago by AE35
Tidsskrift.dk er åbnet og det ser ud til at udgangspunktet er xml med mulighed for såvel formateret html i fuldteksten og pdf. Sgu' da meget sejt.
1 year, 6 months ago by Esse
ja det ser faktisk rent fint ud :-)
1 year, 6 months ago by EsbenThomsen
hmm øv, hvad fanden skal man så bitche over?
1 year, 6 months ago by Mirtar
Køligt nok. Noget tyder på at det er baseret på JSTOR, men det ville have klædt dem at offentliggøre source-koden, og gøre det muligt for folk selv at oprette digitalt indhold, som det er nu tilbyder de en, dog ok prissat, OCR-skannings tjeneste
1 year, 6 months ago by kimbach
flere fomater :-p ej jeg er glad for at det ikke kun er billeder, hvilket ville have gjort det ubrugeligt.
1 year, 6 months ago by EsbenThomsen
Ja jeg rejser hænderne og klapper for deres tiltag! godt gået KB
1 year, 6 months ago by AE35