[glux] [HELP] manipolazione testo+allegato!

Giuseppe Butti giuseppebutti@gmail.com
Sab 19 Gen 2008 16:09:50 CET


Se non hai ancora trovato la soluzione al tuo problema prova questo script
in sed:


#!/bin/sed -nf


/./!d

/^ \+/d

h
:s
n
/ID=\|TEMP\|OUTPUT\|ON\|OFF\|^--$\|C\.$\|\*\*\*\*\*/!bs
:x
/<[^>]*>/{
  s/<[^>]*>//
  bx
}
/\*\*\*\*\*/{
  n
  H
  n
  x
  y/\n/;/
  p
  b
}
H
bs

salvalo in un file e rendilo eseguibile. Poi lo lanci dandogli il file di
input come argomento.

Esempio: script.sed inputfile.txt

Con il file di esempio che hai allegato funziona.

Ciao

Giuseppe


2008/1/18 fabrizio <frompani@rompani.it>:

> ciao
> nel testo in allegato vorrei fare le seguenti operazioni:
> -1-tolgliere tutti i tag html ovvero :
>
> ID=17000000F4FCC228&nbsp;channel=0
> TEMP
> 1.3125 C.
> --
> ID=AA0000010F1B6D28&nbsp;channel=0
> TEMP
> 9.0 C.
> --
> ID=8700000026265C05&nbsp;channel=0
> OUTPUT
> ON
> --
> ID=16000000262C1F05&nbsp;channel=0
> OUTPUT
> OFF
> *****
> 2007-12-18 23:45:04
> *****
>
> 2- togliere la prima riga di *****
> 3- la seconda riga di ***** deve diventare un separatore di record (il
> testo allegato è solo una parte , vi sono molti "record" simili)
> 4 ciascuna riga della porzione sopra deve diventare un campo.
> 5 i campi cosi creati sono separati da ;
>
> quinsi il risultato finale per il primo record sarebbe:
>
>
>
> ID=17000000F4FCC228&nbsp;channel=0;TEMP;1.3125C.;--;ID=AA0000010F1B6D28&nbsp;channel=0;TEMP;9.0C.;--;ID=8700000026265C05&nbsp;channel=0;OUTPUT;ON;--;ID=16000000262C1F05&nbsp;channel=0;OUTPUT;OFF;2007-12-1823:45:04
>
>
>
> ho provato come inizio con awk a fargli considerare ogni LF+CR  come un
> separatore di campo ,con questo comando
> awk 'BEGIN { FS = "/n/r" } {print $1} ' T.txt >t
>
>  ma non riesco ad ottenere cio che vorrei :-|
> qualcuno è protico di questo tipo di manipolazioni ed ha voglia di
> aiutarmi?
> ciao
> gr
> f
>
>
> _______________________________________________
> glux mailing list
> glux@lists.linux.it
> http://lists.linux.it/listinfo/glux
> http://www.lecco.linux.it
>
-------------- parte successiva --------------
Un allegato HTML è stato rimosso...
URL: http://lists.linux.it/pipermail/glux/attachments/20080119/02c98145/attachment.htm 


Maggiori informazioni sulla lista glux