При импорте большого набора данных (50 ГБ) возникает значительная проблема с учетом «разрывов», вызванных данными. Я вытащил данные в текстовый редактор и вижу, что проблема находится в определенном столбце, где текст переполняется несколькими строками. Краткий пример для кадрового кадра из 8 столбцов выглядит следующим образом:
1001;;x;t;Buy;A great blue car;200;h
1002;;x;t;Buy;A great red car;300;u
1003;;x;t;Buy;A great yellow car;800;u
1004;;x;t;Buy;A great white
car with more text
and more text;200;h
1005;;x;t;Buy;A great yellow car;800;u
То, что я хотел бы сделать, это объединить данные в кадр из 8 столбцов, чтобы позволить считывать данные в R правильно, используя Fread. Правильное решение будет выглядеть следующим образом:
1001;;x;t;Buy;A great blue car;200;h
1002;;x;t;Buy;A great red car;300;u
1003;;x;t;Buy;A great yellow car;800;u
1004;;x;t;Buy;A great whitecar with more textand more text;200;h
1005;;x;t;Buy;A great yellow car;800;u